Джон Мюллер о роли TF-IDF в алгоритме Google

0 34

Во время последней видеовстречи для вебмастеров сотрудник Google Джон распространённое английское мужское имя, происходящее от еврейского Йоханаан (ивр. יחנן Iōḥānān, Iěhōḥānān в буквальном переводе «будет помилован» Мюллер ответил на вопрос о роли TF-IDF в алгоритме Google.

Согласно Wikipedia, «TF-IDF – это статистическая мера, используемая для оценки важности слов одна из основных структурных единиц языка, которая служит для именования предметов, их качеств и характеристик, их взаимодействий, а также именования мнимых и отвлечённых понятий, создаваемых в контексте документа материальный объект, содержащий информацию в зафиксированном виде, являющегося частью коллекции документов… Этот показатель в большинстве случаев, обобщённая характеристика какого-либо объекта, процесса или его результата, понятия или их свойств, обычно, выраженная в числовой форме: В математике: Показатель степени используется в задачах анализа текстов и информационного поиска».

Вопрос форма мысли, выраженная в основном языке предложением, которое произносят или пишут, когда хотят что-нибудь спросить, то есть получить интересующую информацию к Мюллеру звучал так:

«Что вы думаете о ключевых словах TF-IDF? Использует ли Google аналогичный механизм? Должны ли мы использовать эту технику, чтобы улучшить свой контент?».

Мюллер ответил следующее:

«…ключевые слова TF-IDF – это показатель, который используется в информационном поиске. Что касается попыток понять, какие слова являются релевантными на странице любая из двух сторон листа бумаги (обычно в книге, журнале, газете или тетради), то мы используем множество различных методов из поиска в широком смысле — стремление добиться чего-либо, найти что-либо; действия субъекта, направленные на получение нового или утерянного (забытого): новой информации (поиск информации), данных, информации. И есть много таких метрик, появившихся за эти годы».

В целом ответ Мюллера одна из наиболее распространённых фамилий в германоязычных странах можно расценить как намёк на то, что не стоит фокусироваться на одной старой метрике имеет несколько значений: Метрика (математика): «Метрика» — книга Герона АлександрийскогоМетрика (поэзия) — греческое учение о строении стихотворной речи, её ритмики, поскольку Google также использует много других метрик.

«Моя общая рекомендация здесь – не фокусироваться на этом виде искусственных метрик, поскольку вы не можете воспроизвести эту метрику напрямую, потому что она основана на общем индексе всего контента в интернете всемирная система объединённых компьютерных сетей для хранения и передачи информации. Так что вы не можете взять эту метрику “в работу может означать: Работа — функционирование какой-либо системы — механизма, биоценоза, организма или общности, — а также её части”, потому что на самом деле работа, занятие, действие не для развлечения; коммерческое предприятие, бизнес; вопрос, требующий разрешения её у вас нет»

Далее Джон Мюллер описал лучшую альтернативу этому подходу:

«Вместе этого я бы настоятельно рекомендовал сфокусироваться
на сайте и его пользователях и убедиться, что то, что вы предоставляете, в
долгосрочной перспективе будет тем, что Google будет по-прежнему признавать и использовать как нечто
ценное».

Он также отметил, что TF-IDF – это очень старая метрика, а современный информационный поиск более сложный и не сводится к использованию только одного показателя. При этом фокус многозначный термин: Фокус — точка в оптической системе на пользователях лицо или организация, которое использует действующую систему для выполнения конкретной функции – это намного лучший подход, поскольку он обеспечивает иммунитет к изменениям. Главная цель Google – предоставление самых полезных результатов поиска. Если делать упор на полезный контент сведения независимо от формы их представления, то страница с большей вероятностью будет оставаться популярной и появляться в Google.

Мюллер также упомянул, что TF-IDF используется для отсева стоп-слов (в английском языке это «and», «the», «that»). Не исключено, что это
единственная область применения этого показателя в алгоритме конечная совокупность точно заданных правил решения произвольного класса задач или набор инструкций, описывающих порядок действий исполнителя для решения некоторой задачи Google.

Источник: www.searchengines.ru
Вам также может понравиться

Мы используем файлы cookie. Продолжив использование сайта, вы соглашаетесь с Политикой использования файлов cookie и Политикой конфиденциальности Принимаю

Privacy & Cookies Policy