• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа "Python для анализа данных"

На данной программе вы познакомитесь с языком Python — одним из наиболее популярных современных языков программирования, который широко используется в анализе данных. Программа состоит из трех структурных частей:

I. Введение в Python.  Вы научитесь программировать, даже если раньше этого никогда не делали, познакомитесь с базовыми возможностями языка Python, узнаете о его «подводных камнях» и начнёте использовать свои навыки в повседневной работе.
II. Обработка данных в Python. Работа с данными в Python немного похожа на использование систем электронных таблиц — только во много раз мощнее. Буквально одной командой можно выбрать нужные записи из таблицы по заданным критериям, сгруппировать их, вычислить агрегированные значения и визуализировать результат. И это только начало!
III. Сбор данных в Python. Не всегда данные доступны сразу в удобном для обработки виде: они могут быть разбросаны по разным сайтам и храниться в разных форматах. Мы обсудим, как извлекать данные с веб-страниц (веб-скреппинг) и как пользоваться массивами открытых данных, доступных в структурированных форматах (XML, JSON) через API.

Преподаватель

Илья Щуров

Выпускник механико-математического факультета МГУ, кандидат физико-математических наук, доцент кафедры высшей математики НИУ ВШЭ. Лауреат конкурса молодых математиков фонда «Династия». Разработал и прочитал ряд курсов по программированию, в том числе обещуниверситетский факультатив «Программирование на языке Python для сбора и обработки данных». 


 

Основные темы программы

  • Введение в Python. Синтаксис языка. Базовые типы данных: числа, строки, списки, словари, множества. Функции. Классы и объекты. Ввод-вывод. Обработка исключений
  • Введение в анализ табличных данных в Python. Пакет pandas. Объекты Series (последовательность) и DataFrame (таблица). Чтение-запись данных в различных форматах. Запросы к таблицам: выборка строк/столбцов по заданным критериям. Модификация элементов таблицы. Добавление строк/столбцов.
  • Продвинутые возможности pandas. Группировка и агрегирование. Объединение таблиц (различные виды join). Работа с временными рядами. Вычисления: скользящее среднее, кумулятивная сумма и т.д. Работа с пропусками (NA’s). Многомерные данные: мультииндексы. Операции stack-unstack. Построение сводных таблиц (pivot tables).
  • Визуализация данных в Python. Обзор библиотек: matplotlib, pandas, seaborn, plotly, bokeh. Базовые типы визуализаций: графики, столбчатые диаграммы, гистограммы, точечные диаграммы (scatter plots), ящики с усами. Комбинирование различных графических элементов. Построение интерактивных диаграмм с помощью plotly и bokeh.
  • Сбор и подготовка данных. Веб-скреппинг. Библиотека beautifulsoup. Работа с динамическими сайтами с помощью Selenium. Массовый скреппинг с помощью scrapy. Работа со структурироваными данными: JSON и XML. Открытые API.

Начальные требования

Законченное высшее или среднее специальное образование. 

Расписание занятий

Идет набор на летний интенсив. Занятия будут проходить со 2 по 19 июля по понедельникам, средам, четвергам (19:00-22:00) и субботам (15:00-18:00).

44

 академических часа

40 000

рублей

По итогам программы выдается Удостоверение о повышении квалификации установленного НИУ ВШЭ образца

Подать заявку

Вам также могут быть интересны программы