На программе "Прикладная математика и информатика" начался курс "Сбор и обработка данных с помощью краудсорсинга", который проводится базовой кафедрой Яндекс. Курс доступен для студентов ВШЭ и Школы анализа данных Яндекса.
Краудсорсинг – это привлечение большого числа людей к решению какой-либо задачи. Обычно объемные и комплексные вопросы делятся на более маленькие и простые, и уже ими занимается множество независимых исполнителей. В итоге более простые решения "складываются" и решают изначальную задачу. Обычно участники оценивают качество изображений и распознают объекты на них, или, например, оценивают релевантность поисковой выдачи.
Специалисты по data science используют размеченные данные для решения практически всех задач машинного обучения, но далеко не все знают, как происходит подготовка датасетов. Понимание механизмов сбора и разметки данных с помощью краудсорсинга может быть очень полезно для разработчиков: например, они смогут создавать уникальные базы данных и использовать их для построения новых моделей и других амбициозных задач. Такие специалисты востребованы в крупнейших российских и международных ИТ-компаниях.
Курс был запущен осенью 2019 в ШАДе, и на данный момент у него нет аналогов в России. У студентов, прошедших курс, появится глубокое понимание технологий краудсорсинга. Они научатся использовать его в своих проектах, смогут строить промышленные конвейеры по сбору и разметке данных на большом масштабе и познакомятся с "лайфхаками" от преподавателей, специалистов сервисов Яндекса. Кроме того, студенты ФКН получат доступ к использованию Яндекс.Толоки, инструмента для краудсорсинга, на время прохождения курса.
Евгений Коновалов
преподаватель курса, Яндекс
Мы создали этот курс, потому что увидели на рынке высокий спрос на специалистов по краудсорсингу и отсутствие инструментов для их обучения. Более пяти лет мы в Яндекс.Толоке занимаемся краудсорсингом: за это время мы наработали опыт, проводили научные исследования и анализировали их результаты, и теперь мы решили делиться этими знаниями со студентами. Впервые курс по краудсорсингу был запущен год назад в ШАДе, а этой осенью он проходит в ШАДе и на ФКН. На данный момент у него нет аналогов в России.
Этот курс особенно ценен тем, что кроме онлайн-заданий на нем есть занятия по полевому краудсорсингу, где студенты учатся использовать "толпу" для быстрого и качественного сбора данных в офлайне. Они получают такие задания, как, например, проверить наличие в конкретных точках рекламных конструкций и сфотографировать их. Такие задачи актуальны для исследований, данные для которых можно собрать только офлайн.
На курсе мы обсуждаем и более классические задания, занимаемся чистой математикой. В учебный план входят проекты, выполнение которых помогает подготовиться к будущим рабочим задачам. Например, на предыдущем курсе студенты должны были построить систему ранжирования сайтов. Подробно о выполнении таких задач и об опыте обучения на курсе наш выпускник Даниил Поляков недавно рассказал в интервью.
В первую очередь этот курс пригодится всем, кто работает с анализом данных или машинным обучением. Но в целом, на нем мы ждем всех, кто хочет научиться собирать размеченные данные с высоким качеством и делать это эффективно: студентов 3-4 курсов бакалавриата, магистратуры, продвинутых специалистов и исследователей. Мы рады поделиться знаниями с более широкими научными и академическими кругами. Одна из наших целей на будущее — запустить курс в онлайне.