Команда исследователей из Гарвардской школы права поделилась результатами исследования, призванного определить масштабы линкрота (нерабочих ссылок) в интернете.
Для этого они изучили 2,28 млн ссылок со статей на сайте The New York Times за период с 1996 по середину 2019 года и выяснили, что 25% из них являются нерабочими.
Более того, ситуация ухудшалась с течением времени – чем дольше существовали ссылки, тем больше среди них оказывалось нерабочих:
- 6% ссылок с 2018 года
- 43% ссылок с 2008 года
- 72% ссылок с 1998 года
Методология исследования
Выборка ссылок, на основе которой проводился анализ, была получена с помощью программистов NYT, которые извлекли URL, встроенные в архивные статьи, и объединили их вместе с основными метаданными статьи, такими как раздел и дата публикации.
Специалисты Гарвардской школы права в свою очередь измерили ротацию ссылок, написав скрипт для посещения каждого из уникальных URL-адресов в наборе данных и регистрации кодов ответа сервера.
На основе этого анализа они пометили каждую ссылку как «испорченную» (удаленную или недоступную) или «неповрежденную» (возвращающую действительную страницу).
Со всеми данными отчета можно ознакомиться здесь.