В новой версии программы SiteAnalyzer, предназначенной для сканирования и анализа содержимого сайта, реализовано несколько из наиболее востребованных пользователями функций, таких, как: проверка уникальности контента, скрейпинг данных (извлечение данных с сайта) и проверка скорости загрузки страниц по Google PageSpeed.
Принцип работы инструмента проверки уникальности контента прост: по списку URL сайта программа скачивает их содержимое, получает текстовое содержимое страницы (без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.
Таким образом, при помощи шинглов определяется уникальность страниц и появляется возможность вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.
Программа работает с длиной шингла равной 5.
Веб-скрейпинг – это автоматизированный процесс извлечения данных с интересующих страниц сайта по определенным правилам. Основными способами веб-скрейпинга являются методы разбора данных используя XPath, CSS-селекторы, XQuery, RegExp и HTML templates.
Обычно при помощи скрейпинга решаются задачи, с которыми сложно справиться вручную. Это может быть извлечение описаний товаров для создании нового интернет-магазина, скрейпинг в маркетинговых исследованиях для мониторинга цен, либо для мониторинга объявлений.
Проверка скорости загрузки страниц по Google PageSpeed позволяет проверять скорость загрузки тех или иных элементов страниц, а также показывает общий бал скорости загрузки интересующих URL для десктопной и мобильной версии браузера.
Кроме этих трех нововведений в новой версии программы было закрыто множество багов и проведен рестайлинг логотипа.
В частности, в SiteAnalyzer 2.5:
- добавлена возможность группировки проектов по папкам
- добавлена фильтрация списка проектов по названию
- исправлен некорректный учет исключений URL
- исправлен некорректный учет глубины сканирования сайта
- восстановлено отображение редиректов для URL, импортированных из файла
- восстановлена возможность перестановки и запоминания порядка столбцов на вкладках
- восстановлен учет неканонических страниц, решена проблема с пустыми мета-тегами
- восстановлено отображение анкоров ссылок на вкладке Инфо
- ускорен импорт большого количества URL из буфера обмена
- восстановлено отображение alt и title у изображений
- оптимизирована работа программы с кириллическими доменами
- обновлен интерфейс настроек программы
Напомним, в последней версии SiteAnalyzer, которая вышла в ноябре 2020 года, появились экспорт и фильтрация данных на вкладках Custom Search и Custom Filters.