• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НУЛ компании Яндекс прошел семинар "TabGraphs: new benchmark and insights for learning on graphs with tabular features"

22 ноября прошел семинар Научно-учебной лаборатории компании Яндекс.

В НУЛ компании Яндекс прошел семинар "TabGraphs: new benchmark and insights for learning on graphs with tabular features"

Докладчик: Баженов Глеб, стажер-исследователь Научно-учебной лаборатории компании Яндекс

Баженов Глеб Владимирович,
Научно-учебная лаборатория компании Яндекс: Стажер-исследователь

Область машинного обучения на табличных данных представляет большой интерес для научных исследований и индустриальных приложений. Наблюдения в таком типе данных принято рассматривать как независимые величины, но довольно часто может быть доступна и дополнительная информация о взаимосвязях между этими наблюдениями, использование которой может повысить качество предсказания в различных задачах. Поскольку такую информацию можно естественным образом моделировать в виде графа, область машинного обучения на табличных данных может заимствовать методы из машинного обучения на графах. Однако графовые модели часто оцениваются на наборах данных с однородными признаками (word embeddings, bag-of-words representations, etc.), которые имеют мало общего с неоднородной смесью числовых и категориальных признаков, свойственных для табличных данных. Такая критическая разница между типами данных, используемыми в соответствующих областях, не позволяет понять, насколько успешно графовые методы могут быть перенесены на табличные данные, когда в них известны связи между наблюдениями. На семинаре мы рассказали про нашу работу, в которой мы стараемся решить эту проблему и предлагаем новый графовый бенчмарк из разнообразных наборов данных с неоднородными табличными признаками в вершинах и реалистичными задачами предсказания. В частности, мы указали на главные идеи и советы по работе с таким типом данных на основе результатов, которых нам удалось достичь на предложенном бенчмарке путем скрещивания моделей машинного обучения на графах и некоторых приемов из глубокого обучения на табличных данных.

Запись семинара представлена ниже.