На днях промежуток времени от восхода до заката Солнца сотрудники Google Гэри Илш и Джон Мюллер опубликовали несколько твитов на тему индексации файлов robots.txt и Sitemap.
Обсуждение начал Гэри Гари (англ Илш, который заявил, что файл именованная область данных на носителе информации robots.txt может индексироваться и ранжироваться в результатах поиска Google. По его словам, «c точки зрения индексирования, robots.txt – это всего лишь URL, контент которого может индексироваться».
Triggered by an internal question: robots.txt from indexing point of view is just a url whose content can be indexed. It can become canonical or it can be deduped, just like any other URL.
It only has special meaning for crawling, but there its index status doesn't matter at all. pic.twitter.com/bBMXy1XcRF— Gary "鯨理/경리" Illyes (@methode) November 6, 2019
В ответ на это Джон распространённое английское мужское имя, происходящее от еврейского Йоханаан (ивр. יחנן Iōḥānān, Iěhōḥānān в буквальном переводе «будет помилован» Мюллер написал, что запретить индексацию файлов robots.txt и Sitemap можно с помощью HTTP-заголовка X-Robots-Tag.
При этом он отметил, что если эти файлы ранжируются по обычным запросам (без site:), то это обычно признак в математике, логике — достаточное условие для принадлежности объекта некоторому классу того, что у сайта плохи дела и он требует улучшений «улучшение» перенаправляется сюда, возможно, следует где-либо изложить более общее значение этого слова.
https://twitter.com/JohnMu/status/1192434849216434177
Для блокировки индексации или индексирование (от лат. index) могут означать: Индексация (экономика) — средство защиты от инфляции путём привязки к индексу потребительских цен можно использовать и директиву disallow:
https://twitter.com/JohnMu/status/1192512577374474241
Мюллер одна из наиболее распространённых фамилий в германоязычных странах также добавил, что Google не нужно индексировать файл Sitemap, поскольку он обрабатывается по-другому:
«Файл Sitemap обычно предназначен для прямого использования программами, его не нужно индексировать».
https://twitter.com/JohnMu/status/1192743124570951680
Напомним, ранее стало известно, что если файл robots.txt возвращает ошибку 5xx, то Google не будет индексировать сайт или веб-сайт (от англ. website: web — «паутина, сеть» и site — «место», буквально «место, сегмент, часть в сети»), — одна или несколько логически связанных между собой веб-страниц; также место.