Во время последней видеовстречи для вебмастеров сотрудник Google Джон Мюллер рассказал, что страницы с похожими URL могут расцениваться как дубликаты.
Чтобы избежать ненужного сканирования и индексирования, Google пытается предсказать, когда страницы могут содержать похожий или повторяющийся контент, на основе их URL-адресов.
Когда Google сканирует страницы с похожими шаблонами URL и видит, что они содержат одинаковый контент, то он может решить, что все другие страницы с этим шаблоном URL также имеют тот же контент. В результате страницы с уникальным контентом могут обозначаться как дубликаты и удаляться из индекса Google.
Google использует несколько уровней для определения дублированного контента. На одном из них поисковик смотрит непосредственно на содержимое страниц, на другом – на их URL. В последнем случае речь идёт о более широком предиктивном подходе, когда также анализируется структура URL сайта.
Описанная выше проблема может возникать в случае контента, ориентированного на разные города – когда сайт содержит большое количество похожего контента, но с указанием разных городов. Поэтому предиктивный метод выявления дубликатов может влиять на сайты мероприятий, а также на другие ресурсы.
В качестве возможного решения этой проблемы Мюллер предлагает посмотреть, где на сайте действительно используется дублированный контент, и попытаться по максимуму его сократить – чтобы из-за этих страниц не пострадали страницы с уникальным содержимым, но похожими URL.
Напомним, что санкций за дублированный контент в Google нет.