BatchUniqueChecker — новый бесплатный инструмент для проверки уникальности страниц

0 8

BatchUniqueChecker - новый бесплатный инструмент для проверки уникальности страниц

Вышла новая программа BatchUniqueChecker, предназначенная для пакетной проверки группы URL на уникальность между собой.

Это простой инструмент для оперативной проверки уникальности контента для группы URL, который можно запускать даже со сменного носителя. Программа бесплатна, занимает всего 4 Мб в архиве и не требует установки.

BatchUniqueChecker - новый бесплатный инструмент для проверки уникальности страниц

Принцип работы BatchUniqueChecker прост: по заранее подготовленному списку URL программа скачивает их содержимое, получает PlainText (текстовое содержимое страницы без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.

Таким образом, при помощи шинглов можно определить уникальность страниц и вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.

BatchUniqueChecker - новый бесплатный инструмент для проверки уникальности страниц

В настройках программы есть возможность ручной установки размера шингла (шингл – это количество слов в тексте, контрольная сумма которых попеременно сравнивается с последующими группами внахлест). Разработчики рекомендуют  установить значение = 4. Для больших объемов текста от 5 и выше. Для относительно небольших объемов – 3-4:

BatchUniqueChecker - новый бесплатный инструмент для проверки уникальности страниц

Помимо полнотекстового сравнения контента, в программу заложен алгоритм «умного» вычленения так называемых «значимых» текстов. То есть, из HTML-кода страницы можно получить только лишь контент, содержащийся в тегах H1-H6, P, PRE и LI. За счет этого как бы отбрасывается все «не значимое», например, контент из меню навигации сайта, текст из футера либо бокового меню.Такое вычленение «значимого» контента страниц дает при сравнении более точные результаты уникальности.

Список страниц для их последующего анализа можно добавить несколькими способами: вставить из буфера обмена, загрузить из текстового файла, либо импортировать из Sitemap.xml с диска вашего компьютера.

Благодаря многопоточной работе программы, проверка сотни и более URL может занять всего несколько минут, на что в ручном режиме, через онлайн-сервисы, может уйти целый день или более.

Все что необходимо для начала работы – скачать дистрибутив и добавить на проверку список интересующих URL, которые можно получить через бесплатную программу технического аудита SiteAnalyzer.

Источник: searchengines.guru
Оставить комментарий

Мы используем файлы cookie. Продолжив использование сайта, вы соглашаетесь с Политикой использования файлов cookie и Политикой конфиденциальности Принимаю

Privacy & Cookies Policy