• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Программа "Text Mining"

Данная программа ставит своей целью изучение основных задач и методов обработки и анализа текстов, а также освоение программных систем и инструментов, в которых реализованы данные методы. Эти базовые знания и навыки необходимы в профессиональной деятельности специалистов по анализу данных и машинному обучению. Выпускники программы смогут ставить задачи морфологического, синтаксического  и  лексического анализа; будут владеть основными программными системами для выделения скрытых тем и визуализации текстов; уметь решать задачи выделения ключевых слов и определения тональности с помощью применения существующих программных средств.

В курсе будут рассмотрены основные задачи автоматической обработки текстов и приемы анализа и обработки текстов на русском языке: 

  • Морфологический и синтаксический анализ: как определить части речи в предложении? Как найти все глаголы, объекты и субъекты? Как построить дерево зависимостей? Что такое Google SyntaxNet?
  • Выделение ключевых слов и словосочетаний: ищем важные слова и словосочетания в тексте. 
  • Векторная модель текста и слова: представление текста в виде вектора для последующего машинного обучения, представление слова в виде вектора для моделирования его смысла.
  • Методы снижения размерности в векторной модели текста: тематическое моделирование, LDA. 
  • Методы снижения в векторной модели слова: word2vec, doc2vec, GloVe.
  • Задача классификации текстов. 
  • Задача классификации последовательностей: выделение именованных сущностей из текстов на русском языке.
  • Глубинное обучение и автоматическая обработка текстов. 
  • Сверточные нейронные сети для классификации текстов. 
  • Реккурентные нейронные сети для извлечения именованных сущностей.

На практических занятиях будут рассмотрены примеры классификации и кластеризации текстов на реальных русскоязычных данных. Особое внимание уделяется задаче извлечения именованных сущностей (имен, название городов и организаций).

Преподаватель

Екатерина Черняк
Старший преподаватель Департамента анализа данных и искусственного интеллекта факультета компьютерных наук, научный сотрудник Международной научно-учебной лаборатории анализа и выбора решений.


Екатерина Черняк

Основные темы программы

  • Частотный анализ текстов 
  • Морфологический анализ 
  • Выделение ключевых слов и словосочетаний
  • Выявление скрытых тем
  • Введение в корпусную лингвистику
  • Синтаксический анализ
  • Визуализация текстов.

Начальные требования

Владение базовыми навыками программирования на одном из языков высокого уровня (желательно Python).
Для подготовки к программе хорошо подойдут интенсивы "Python для анализа данных""Математический анализ и линейная алгебра""Теория вероятностей и математическая статистика".

Начало занятий 

В формате Летнего интенсива: 7, 8, 10 и 11 августа с 19:00-22:00

16

академических часов

16 000

рублей

По итогам программы выдается Удостоверение о повышении квалификации установленного НИУ ВШЭ образца

Подать заявку

 Отзывы слушателей

 Программа понравилась прекрасным изложением теории и практически все вещи иллюстрировались реальными примерами кода на реальных данных. 

Владимир Белов
руководитель сектора разработки бизнес приложений, ВНИПИнефть

Отличный тренинг как для тех, кто только знакомится с Text Mining, так и для тех, кто уже набил шишки в этой области. За 4 занятия было охвачено множество тем из разных областей анализа, материал излагался очень интересно: несмотря на то что занятия длились по 3 часа, время пролетало как один миг и совсем не чувствовалось усталости. Лекции хорошо сбалансированы: описания методов подкреплены реальными примерами их приложения на практике и математическими обоснованиями, также приведены куски кода (на Python и не только), позволяющие сразу же использовать их в своих задачах. После занятий всегда возникало множество идей как практического, так и научного плана и интерес к области Text Mining возрос еще больше. Огромное спасибо организаторам и преподавателю за полученные знания, интересные визуальные примеры и вдохновение!

Анна Мельникова
ведущий аналитик, Experian

 

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!