• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В Вышке прошла Ночь анализа данных

В Ночь с 8 на 9 апреля в Высшей школе экономики прошла Ночь анализа данных. 66 команд из университетов Москвы, Санкт-Петербурга и Нижнего Новгорода приняли участие в соревновании по машинному обучению на реальных данных Яндекс.Такси. Хакатон проходил в два этапа и продлился в общей сложности 9 часов. По итогам все призеры получили памятные призы, а команда-победитель II этапа, в состав которой вошли студенты факультета вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова поехала домой на Tesla от Яндекс.Такси. 


“Задача взята из реальной жизни сервиса Яндекс.Такси, — рассказывает о конкурсе Андрей Устюжанин, руководитель Научно-учебной лаборатории методов анализа больших данных НИУ ВШЭ. — Некоторые заказы не находят своих водителей, или, говоря на языке таксистов, "сгорают". Причины этому быть разными: от ошибки пользователя до малого количества водителей в окрестности заказа, например из-за окончания концерта или футбольного матча. Команда Яндекс.Такси заинтересована в минимизации количества таких заказов, поэтому алгоритм предсказания риска сгорания нового заказа  очень актуальная задача. С помощью такого алгоритма сервис Яндекс.Такси мог бы дополнительно поощрять водителей забирать заказы с высокой степенью риска сгорания. Участники хакатона исходили из данных, состоящих из нескольких колонок: координаты заказа, предпочтения пользователя, его время и его статус (принят или сгорел). Необходимо было разработать алгоритм, способный предсказать риск сгорания новых заказов. Метрика соревнования должна быть относительно простой и осмысленной. Поэтому многие участники выбрали довольно популярную метрику roc auc, которая показывает насколько часто алгоритм "путает" хорошие и плохие заказы. Для хакатона был подготовлен базовый способ решения задачи, который участники могли использовать для быстрого старта. В этом же репозитории находится тетрадка с ознакомительной лекцией по методам классификации. Репозиторий подготовлен таким образом, что его тетрадки можно легко запустить с использованием облачных сервисов mybinder или everware.”

Также во время соревнования участникам было предложено решить блиц-задачи по опубликованным данным, которые требовали понимания структуры данных и навыков работы с инструментами анализа данных. Например, в одном из блиц-вопросов требовалось найти день с наибольшим количеством сгоревших заказов в Шереметьево.

“Это был наш первый опыт участия в соревновании такого формата,  рассказывает участник команды-победителя II этапа Степан Драпак.  До этого основной опыт в машинном обучение мы получали при решении практических работ и соревнований в рамках курсов нашей кафедры математических методов прогнозирования на факультете ВМК МГУ. У нас подобралась замечательная команда  каждый имеет соревновательный опыт (Вова победитель Всероссийской олимпиады по информатике, Паша  призер, я в свободное время пробую решать «большие» задачи на kaggle). В ходе соревнования мы с Пашей поделили задачи аналитиков, а программист Вова воплощал все наши задумки. У нас осталась куча положительных эмоций от организации, процесса и результата. Спасибо вам всем, обязательно примем участие в следующий раз.”

“Хакатон мне показался очень интересным: раньше я (да и моя команда) участвовали только в соревнованиях на kaggle, однако когда ты видишь обогнавшую тебя команду не только в лидерборде, но и буквально в трех столах от тебя, а не где-нибудь в Шанхае, то это особенное ощущение,  делится впечатлениями участник команды, занявшей III место во втором этапе Илья Иваницкий.  Равно и как когда после удачного решения ты выходишь на первое место, и многие поднимают лица от ноутов и ищут твою  команду. В нашей команде собрались ребята с ФКН Вышки (нас было двое) и мой друг из МИФИ. Таким составом мы что-то делали впервые, но и по результату, и по эмоциям нам очень понравилось, и теперь, вероятно, попробуем выступить на kaggle.Задача, которую нам предложили, была увлекательная, а главное, близкая к реальным бизнес-задачам. В нашем решении мы посчитали разные фичи, не только самые очевидные, но и, например, расстояние до вокзалов и сколько вызовов было из каждого конкретного места. Затем на разных субсетах признаков обучили модели и заблендили их решение. К сожалению, много чего не успели прикрутить и посчитать, так как в самом начале приняли стратегически неверное решение не использовать облачный кластер и все считать локально. Были интересно, полезно и очень драйвово!”


Ночь анализа данных в Вышке прошла в рамках Дней компьютерных наук при поддержке Яндекса и WorldQuant. Фотографии с мероприятия доступны в фотоальбомах факультета.