• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа «Python для анализа данных»

На данной программе вы познакомитесь с языком Python — одним из наиболее популярных современных языков программирования, который широко используется в анализе данных. Программа состоит из трех структурных частей:

I. Введение в Python.  Вы научитесь программировать, даже если раньше этого никогда не делали, познакомитесь с базовыми возможностями языка Python, узнаете о его «подводных камнях» и начнёте использовать свои навыки в повседневной работе.
II. Обработка данных в Python. Работа с данными в Python немного похожа на использование систем электронных таблиц — только во много раз мощнее. Буквально одной командой можно выбрать нужные записи из таблицы по заданным критериям, сгруппировать их, вычислить агрегированные значения и визуализировать результат. И это только начало!
III. Сбор данных в Python. Не всегда данные доступны сразу в удобном для обработки виде: они могут быть разбросаны по разным сайтам и храниться в разных форматах. Мы обсудим, как извлекать данные с веб-страниц (веб-скреппинг) и как пользоваться массивами открытых данных, доступных в структурированных форматах (XML, JSON) через API.

Подать заявку

Преподаватели

 

Ростислав Бородин

Full-stack разработчик, ведущий программист Medsenger.ru. Более 8 лет опыта разработки и преподавания курсов программирования для школьников и студентов.

Окончил факультета компьютерных наук НИУ ВШЭ. 

 

Алла Тамбовцева

Преподаватель кафедры высшей математики, программ "Анализ данных в социальных науках", "Математика и статистика" и "Основы программирования в Python".

Окончила бакалавриат НИУ ВШЭ по специальности "Политология".

 

 

Татьяна Рогович

Приглашенный преподаватель проекта Data Culture. Занимается проектной работой в области аналитики и визуализации данных  с сентября 2015 года.

Окончила магистратуру Центрально-Европейского университета по специальности "Статистика и методология исследования".

Работала менеджером по организации работы СМИ на спортивных событиях крупнейшего масштаба (Олимпиада в Сочи 2014, Чемпионат мира по футболу 2018, Европейские игры в Минске 2019 и другие). Вице-председателем исследовательской группы по политическому поведению, Центрально-Европейский университет, 2015-2017. Ассистентом-исследователем на кафедре истории философии и логики, Томский государственный университет, 2012-2014. Маркетологом региональной сети магазинов товаров для дома, 2011-2012.
Область научных интересов: поведенческая экономика, экспериментальные исследования, восприятие визуальной информации, машинный анализ текстов.


 

 

 

Основные темы программы

  • Введение в Python. Синтаксис языка. Базовые типы данных: числа, строки, списки, словари, множества. Функции. Классы и объекты. Ввод-вывод. Обработка исключений
  • Введение в анализ табличных данных в Python. Пакет pandas. Объекты Series (последовательность) и DataFrame (таблица). Чтение-запись данных в различных форматах. Запросы к таблицам: выборка строк/столбцов по заданным критериям. Модификация элементов таблицы. Добавление строк/столбцов.
  • Продвинутые возможности pandas. Группировка и агрегирование. Объединение таблиц (различные виды join). Работа с временными рядами. Вычисления: скользящее среднее, кумулятивная сумма и т.д. Работа с пропусками (NA’s). Многомерные данные: мультииндексы. Операции stack-unstack. Построение сводных таблиц (pivot tables).
  • Визуализация данных в Python. Обзор библиотек: matplotlib, pandas, seaborn, plotly, bokeh. Базовые типы визуализаций: графики, столбчатые диаграммы, гистограммы, точечные диаграммы (scatter plots), ящики с усами. Комбинирование различных графических элементов. Построение интерактивных диаграмм с помощью plotly и bokeh.
  • Сбор и подготовка данных. Веб-скреппинг. Библиотека beautifulsoup. Работа с динамическими сайтами с помощью Selenium. Массовый скреппинг с помощью scrapy. Работа со структурироваными данными: JSON и XML. Открытые API.

Начальные требования

Законченное высшее или среднее специальное образование. 

Расписание занятий

Старт занятий в феврале 2020.
Занятия будут проходить во вторник с 19:00 до 22:00 и субботу с 15:00 до 18:00.

Место проведения: Покровский бульвар, 11.

44 академических часа

 

По итогам программы выдается Удостоверение о повышении квалификации установленного НИУ ВШЭ образца

Подать заявку

Типовые практические задания, которые вы выполните на семинарах

Работа с json-файлами с Портала открытых данных

Создание красивых визуализаций по показателям Всемирного банка

Выгрузка данных из социальных сетей

Веб-скрейпинг

Управление браузером

Вам также могут быть интересны программы