Яндекс опубликовал набор данных беспилотных автомобилей для исследований в области машинного обучения и автономного транспорта. Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.
Датасет опубликовали для конкурса Shifts Challenge, который Яндекс проведет в рамках международной конференции NeurIPS 2021 совместно с учеными из Оксфорда и Кембриджа. Задача конкурса – привлечь внимание к проблеме «сдвига данных» в машинном обучении.
Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределенностью – незнакомыми ситуациями и неизвестными данными. Для Shifts Challenge Яндекс выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов. Участники конкурса должны будут создать устойчивые к сдвигу модели. Например, такую модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.
Конкурс позволит не только привлечь внимание к проблеме сдвига, но и даст ученым доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальном мире. Для конкурса исследователи Яндекса вместе с командами Яндекс.Погоды, Яндекс.Переводчика и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Такие разнородные данные помогут ускорить разработку алгоритмов, способных адаптироваться к новым условиям быстрее и лучше сегодняшних.
Все данные обезличены. Так, датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и пр.), но не использует видео, где были бы видны номера машин или лица прохожих. Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Создатели алгоритмов, которые покажут лучшее качество, получат денежные призы.
Ранее, в мае, Сбер открыл IT-компаниям свободный доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных. Эти данные могут быть использованы для распознавания и синтеза речи.
А недавно стало известно, что IT-разработчики получат доступ к обезличенным медицинским данным россиян.