профессия
Это программа по анализу данных и машинному обучению, которая охватывает все разделы современного анализа данных, в том числе глубинное обучение и его применения.
Программа начинается с самых основ — изучения программирования и базовых разделов математики — и переходит к разделам по машинному обучению, прикладной статистике и обработке данных, работе с большими данными, глубинному обучению, его применениям к изображениям, текстам и сигналам. При разработке программы мы сделали акцент на практическую работу.
По итогам программы вы получите самые актуальные знания в одной из самых востребованных областей 21 века, проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца.
В декабре 2019 г. программа «Специалист по Data Science» стала сертифицированной программой нацпроекта «Цифровая экономика» и победила в номинации «Подготовка профессионалов цифровой индустрии».
Программа
18 занятий*
- Введение в язык Python. Знакомство со средой программирования. Базовые операции. Интерпретация ошибок.
- Строки и списки в Python.
- Понятие управляющих конструкций. Условные операторы.
- Циклы for и while.
- Устройство функций в Python. Поиск ошибок в коде и отладка.
- Итераторы, генераторы, генераторы списков. Рекурсия.
- Работа с файлами. Продвинутая работа со словарями.
- Библиотеки для хранения и работы с данными в табличном формате: pandas.
- Сбор данных: web-scraping с BeautifulSoup.
- Сбор данных: Selenium, работа с сервисами через API.
- Объектно-ориентированное программирование. Классы.
- Введение в numpy.
- Введение в pandas.
- Работы с пропущенными данными.
- Визуализация для презентации данных: matplotlib. Основные виды графиков. Основные ошибки при создании визуализаций.
- Создание интерактивных визуализаций: plotly.
- Разведывательный анализ данных. Особенности исследования текста.
5 занятий
-
Введение в SQL. Основные блоки запросов. Типы данных.
-
Агрегационные функции и подзапросы.
-
Join'ы и их применение.
-
Оконные функции.
-
SQL в связке с Python.
19 занятий*
Дискретная математика:
- Множества и логика.
- Комбинаторика и вероятность.
- Неориентированные графы.
- Ориентированные графы и алгоритмы на графах.
Математический анализ:
- Функции одной переменной, пределы, производные.
- Касательные, критические точки, поиск минимумов и максимумов.
- Интегралы, введение в вычисление интегралов.
- Функции нескольких переменных, градиент, производная по направлению, линии уровня, касательная плоскости, критические точки, поиск минимумов и максимумов.
- Оптимизационные задачи, лагранжиан и его геометрический смысл, нахождение минимума или максимума с заданными ограничениями.
Линейная алгебра:
- Системы линейных уравнений, матрицы, обратимость и невырожденность.
- Определитель, обратная матрица.
- Векторные пространства и подпространства, размерности, ранги матриц.
- Линейные отображения и их матричное описание. Собственные значения и векторы, связь со спектром.
- Билинейные и квадратичные формы. Скалярные произведения, углы и расстояния. Ортогонализация и QR-разложение. Линейные многообразия и линейные классификаторы, отступы.
- Операторы в евклидовых пространствах. Сингулярное разложение (SVD).
Теория вероятностей:
- Пространство элементарных исходов. События. Вероятность и её свойства. Условная вероятность. Формула полной вероятности. Формула Байеса.
- Дискретные случайные величины и их распределения. Независимость случайных величин. Распределение функции от дискретной случайной величины. Математическое ожидание и дисперсия.
- Случайные величины, имеющие плотности. Математическое ожидание случайной величины, имеющей плотность. Равномерное, экспоненциальное, нормальное распределения.
- Функция распределения. Распределение функции от случайной величины, имеющей плотность. Многомерные случайные величины. Ковариация и корреляция.
- Неравенства концентрации (неравенства Маркова и Чебышёва). Распределение суммы случайных величин. Закон больших чисел. Центральная предельная теорема.
Прикладная статистика для машинного обучения
9 занятий*
Теория оценивания. Оценивание параметров распределения. Метод моментов и метод максимального правдоподобия. Сравнение оценок.
- Теория оценивания. Оценивание характеристик распределения. Метод Монте-Карло.
- Доверительное оценивание. Построение доверительных интервалов. Доверительные интервалы в нормальной модели. Бутстрэп.
- Проверка гипотез. Введение в проверку гипотез. Критерии согласия.
- Проверка гипотез. Критерии однородности и A/B тестирование I.
- Проверка гипотез. Критерии однородности и A/B тестирование II.
- Линейные модели со статистической точки зрения I. Исследование зависимости признаков. Ковариация и корреляция.
- Линейные модели со статистической точки зрения II. Метод наименьших квадратов (МНК). Статистические свойства оценок МНК.
- Временные ряды. Модель SARIMA и ее подгонка.
10 занятий*
- Асимптотический анализ.
- Базовые структуры данных.
- Сортировки.
- Бинарные деревья поиска.
- Хеш-таблицы.
- Алгоритмы на графах.
- Алгоритмы на строках.
- Динамическое программирование.
14 занятий*
- Введение и основные задачи.
- Линейная регрессия.
- Градиентные методы обучения.
- Линейная классификация и метрики качества классификации.
- Логистическая регрессия и SVM.
- Многоклассовая классификация, работа с категориальными признаками и текстами.
- Решающие деревья.
- Бэггинг и случайные леса.
- Градиентный бустинг.
- Градиентный бустинг: имплементации.
- Отбор признаков и понижение размерности.
- Кластеризация.
- Поиск аномалий.
- Рекомендательные системы.
- Ранжирование.
Промышленное машинное обучение на Spark
8 занятий
- Введение: как работают и где находятся большие данные.
- Среда Spark. Spark RDD / Spark SQL.
- Advanced SQL.
- Spark ML / Spark TimeSeries.
- Advanced ML и проверка результатов качества моделей.
- Spark GraphX /Spark Streaming.
- Экосистема Spark (MLFlow, AirFlow,H2O AutoML).
- Spark в архитектуре проекта / Spark CI/CD.
10 занятий*
- Введение в глубокое обучение. От линейной регрессии к нейронной сети. Смотрим на базовые возможности tensorflow/pytorch, собираем первую нейросеть.
-
Обучение нейронных сетей. Алгоритм обратного распространения ошибки.
-
Свёрточные нейронные сети. Классификация изображений.
-
Оптимизация. Эвристики для обучения нейронных сетей. Нормализация по батчам, инициализация и др.
-
Архитектуры свёрточных сетей. Что видят свёрточные сети. Transfer learning.
-
Обзор задач компьютерного зрения. Детекция, сегментация, перенос стиля, распознавание лиц.
-
Автокодировщики и генеративные модели (Generative Adversarial Networks).
-
Глубокое обучение для NLP. Векторные представления текстов: word2vec, fasttext.
-
Рекуррентные нейронные сети, работа с последовательностями. ELMO-эммбеддинги.
-
Sequence2sequence, архитектуры с механизмом внимания. Трансформеры. BERT.
Прикладные задачи анализа данных
10 занятий
-
Введение в цифровую обработку сигналов и классификация звуков.
-
Автоматическое распознавание речи.
-
Преобразование текста в речь.
-
Введение в обработку текстов и классификация текстов.
-
Языковое моделирование.
-
Машинный перевод.
-
Распознавание лиц и метрическое обучение.
-
Семантическая сегментация изображений.
-
Детекция объектов на изображениях.
-
Глубинное обучение в производстве: обслуживание и ускорение.
* — данный блок можно пройти как отдельную программу повышения квалификации
Преподаватели
Ян Пиле
Руководитель группы аналитики в VK
Анастасия Максимовская
Data Scientist в Сбербанке
Максим Карпов
Старший преподаватель факультета компьютерных наук
Елена Кантонистова
Доцент факультета компьютерных наук
Валентин Промыслов
Преподаватель факультета компьютерных наук
Сергей Абдуракипов
Data Science Team Lead в SAP Labs
Ксения Лисицина
DL-разработчик в Яндекс Go
Ильдар Сафило
Руководитель группы по рекомендательным системам в МТС
Илья Аброскин
Преподаватель факультета компьютерных наук
Долма Хуракай
Аналитик в X5 Retail Group
Никита Бекезин
Lead Data Scientist в X5 Retail Group
Сергей Дрожжин
Старший Data Scientist в ОТП Банк
Катерина Коломейцева
Data Scientist в Сколтехе
Кирилл Овчинников
Руководитель направления в Сбере
Артем Заболотный
Преподаватель факультета компьютерных наук
Тимур Петров
Аналитик в Яндекс.Лавке
Руслан Рахимов
Инженер-исследователь в Сколтехе
Мария Горденко
Преподаватель факультета компьютерных наук
Анастасия Трофимова
Преподаватель факультета компьютерных наук НИУ ВШЭ
Леонид Смелов
Приглашенный преподаватель факультета компьютерных наук
Вероника Саркисян
Математик-разработчик в Ozon
Леонид Иосипой
Преподаватель факультета компьютерных наук
Филипп Ульянкин
Data Scientist в Яндекс.Дзен
Эксперты
Евгений Соколов
Научный руководитель
Элен Теванян
Lead Data Scientist в X5 Retail Group
Леонид Иосипой
Старший научный сотрудник факультета компьютерных наук
Ян Пиле
Руководитель группы аналитики в VK
Поступающим
Оставить заявку на обучение
-
В заявке важно указать актуальные номер и e-mail.
-
Менеджер свяжется с вами по указанным в заявке контактам, чтобы вы могли подтвердить участие в обучении.
-
Для зачисления нужны сканированные копии:
– паспорта (3-4 страница, а также страница с адресом регистрации);
– диплома о высшем или среднем профессиональном образовании (первые две страницы);
– актуальной справки из вуза (если вы являетесь студентом);
– снилс;
– свидетельства о смене фамилии (если в паспорте и дипломе фамилия не совпадает).
-
Менеджер отправит вам договор на ознакомление и ссылку на оплату, по которой нужно будет оплатить обучение.
-
За несколько дней до начала обучения менеджер отправит организационное письмо со всей важной информацией о программе и ссылкой на чат в Telegram.