Семинар Научно-учебной лаборатории компании Яндекс "TabGraphs: new benchmark and insights for learning on graphs with tabular features"
Дата: 22 ноября 2023 г., 15:00
Докладчик: Баженов Глеб, стажер-исследователь Научно-учебной лаборатории компании Яндекс
Аннотация: Область машинного обучения на табличных данных представляет большой интерес для научных исследований и индустриальных приложений. Наблюдения в таком типе данных принято рассматривать как независимые величины, но довольно часто может быть доступна и дополнительная информация о взаимосвязях между этими наблюдениями, использование которой может повысить качество предсказания в различных задачах. Поскольку такую информацию можно естественным образом моделировать в виде графа, область машинного обучения на табличных данных может заимствовать методы из машинного обучения на графах. Однако графовые модели часто оцениваются на наборах данных с однородными признаками (word embeddings, bag-of-words representations, etc.), которые имеют мало общего с неоднородной смесью числовых и категориальных признаков, свойственных для табличных данных. Такая критическая разница между типами данных, используемыми в соответствующих областях, не позволяет понять, насколько успешно графовые методы могут быть перенесены на табличные данные, когда в них известны связи между наблюдениями. На семинаре мы расскажем про нашу работу, в которой мы стараемся решить эту проблему и предлагаем новый графовый бенчмарк из разнообразных наборов данных с неоднородными табличными признаками в вершинах и реалистичными задачами предсказания. В частности, мы укажем на главные идеи и советы по работе с таким типом данных на основе результатов, которых нам удалось достичь на предложенном бенчмарке путем скрещивания моделей машинного обучения на графах и некоторых приемов из глубокого обучения на табличных данных.
Место проведения: Zoom
Идентификатор конференции: 853 8594 6666
Код доступа: 203238