Секция 2: «Содержание и методика преподавания отдельных дисциплин» 24 октября 10:20 – 11:00

 

Доклад «Преподавание анализа данных и машинного обучения для студентов всех направлений»

Докладчик:

Евгений Андреевич Соколов
академический руководитель программы «Прикладная математика и информатика» НИУ ВШЭ

Аннотация: 

В 2014 году на факультете компьютерных наук Вышки была обновлена бакалаврская программа «Прикладная математика и информатика», где одним из ключевых направлений являются машинное обучение и анализ данных. Выпускники этой программы крайне востребованы, а сама программа является одной из самых популярных в стране по данному направлению. С 2017 года в Вышке реализуется проект Data Culture, направленный на обучение программированию и анализу данных студентов абсолютно всех бакалаврских программ. В докладе мы расскажем об опыте реализации этих проектов, подходах к преподаванию и к организации проектного обучения студентов.

Запись доклада

Презентация доклада

Резюме: 

Рассмотрим два проекта с большим опытом преподавания Машинного обучения, реализованные в НИУ ВШЭ. Первый – бакалавриат «Прикладная математика и информатика». Первые два года студенты изучают базовые дисциплины, формируют образовательный фундамент. С третьего года они обучаются по одному из направлений подготовки: Машинное обучение и анализ данных, Распределённые системы, Теоретическая информатика, Прикладная математика. Подробнее будет рассмотрено направление «Машинное обучение и анализ данных». 

Если мы стремимся подготовить профессионалов, исследователей в этой области, то необходим математический фундамент. В первую очередь студентам нужно знать математический анализ, поскольку три четверти машинного обучения – это работа с непрерывными дифференцируемыми моделями и функциями потерь, и там применяются методы непрерывной оптимизации. Второй раздел – это Линейная алгебра и геометрия. Сейчас почти всё обучение моделей машинного обучения построено на матричных вычислениях, на векторизации вычислений, и без знания основ линейной алгебры это сделать сложно. Третья дисциплина – это Теория вероятностей и математическая статистика. Много современных методов в машинном обучении основаны на вероятностном подходе. Статистика активно используется в анализе экспериментов. Наконец, Дискретная математика – работа с графовыми данными. Сейчас выходит много исследований относительно работы с графами, а без знания некоторых разделов дискретной математики здесь не обойтись. На младших курсах мы преподаем язык Python и программирование в целом. Также важно научить студентов алгоритмам и структурам данных, чтобы они умели эффективно писать код, задумываться о быстродействии программ, эффективности алгоритма, хранении данных и экономии памяти. 

В конце второго года обучения студенты выбирают специализацию. Есть две специализации, связанные с машинным обучением. Рассмотрим подробнее специализацию “Машинное обучение и приложения”. Она предусматривает 6 обязательных дисциплин. Дисциплина “Машинное обучение-1” посвящена основным идеям в машинном обучении и классическим базовым моделям. Осенью третьего курса уже на самой специализация студенты изучают дисциплину “Прикладная статистика в машинном обучении”. Это продолжение курса математической статистики, в котором они узнают про продвинутые методы проверки гипотез, методы, связанные с бутстрэпом, основы байесовских методов и пр. Весной на третьем курсе студенты изучают дисциплину “Машинное обучение-2”. Курс посвящен следующим разделам машинного обучения – рекомендательные системы, обучение ранжированию, поиск аномалий, частичное обучение, поиск ближайших соседей, обучение метрик и пр. Весной на 3 курсе студенты изучают дисциплину “Методы оптимизация для машинного обучения”. В ней рассматриваются разные методы оптимизации от численных методов безусловной оптимизации до условной оптимизация, рассматривается оптимизация негладких функций, частично затрагиваются методы глобальной оптимизации. Осенью 4 года обучения студенты изучают дисциплину “Глубинное обучение”, куда входят темы, связанные с нейронными сетями. Весной 4 курса изучают дисциплину “Машинное обучение на больших данных”. Это курс про технологии работы с большими данными - Hadoop, Spark, рассматривается как использовать эти методы в облаке. Также рассматривается как масштабировать методы машинного обучения на кластер или как их распараллелить на несколько ядер.

Второй проект “Data Culture”. Это общеуниверситетский проект, действующий с 2017 года. Его цель — развитие компетенций по программированию и работе с данными у всех студентов НИУ ВШЭ. Все программы в университете разбиты на три уровня: начальный, базовый и продвинутый. Начальный уровень относится к гуманитарным специальностям – философия, история, культурология, межкультурная коммуникация, востоковедение. Для этого уровня был подготовлен курс “Цифровая грамотность”, на котором в основном блоке разбираются следующие темы: устройство компьютера, большие данные, основы компьютерной безопасности, основы медиаграмотности, библиография и работа с научной литературой, офисные технологии. Курс дополняется выборными блоками, такими как статистика, работа с данными, корпусные технологии и пр. Лекции реализуются в онлайн формате, семинары проходят очно раз в неделю, на них студенты выполняют проекты. 

На базовом уровне студенты должны неплохо изучить программирование и уметь работать с данными – визуализировать, анализировать, обрабатывать данные и строить модели. Язык программирования Python изучается в онлайн формате и регулярно проводятся очные консультации. Организуется регулярный контроль знаний в очном формате. 

К продвинутому уровню относится немного образовательных программ университета. Но для бакалавров любых образовательных программ, заинтересованных в погружении в эту тему, предлагается майнор «Интеллектуальный анализ данных», в который включены четыре дисциплины: Python, Основы машинного обучения, Основы глубинного обучения, Прикладные задачи анализа данных.