• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Центр непрерывного образования

С 2016 года обучаем Data Science и машинному обучению на базе факультета компьютерных наук НИУ ВШЭ.

Задать вопрос

От международных отношений к анализу текстов. Выпускница программы «Специалист по Data Science» о своем опыте

Часто обучение на программах профессиональной переподготовки воспринимают как способ перейти в новую область и начать с нуля. Но на самом деле инструменты Data Science могут пригодиться и на текущей работе. В сегодняшнем интервью выпускница программы «Специалист по Data Science» Диана Гаделия рассказывает, как интерес к анализу данных может родиться из изучения международных отношений

От международных отношений к анализу текстов. Выпускница программы «Специалист по Data Science» о своем опыте

Из личного архива Дианы Гаделии

О предыдущем образовании и работе

Я из тех студентов, чье основное образование не связано со сферой информационных технологий – год назад я окончила магистратуру по направлению «Международные отношения». Разделы по программированию и математике программа этого направления не включает. На работе мои обязанности соответствовали образованию – например, я работала в сфере переводов. До перехода на мое нынешнее место работы я не думала о смене сферы деятельности. 

Первая встреча с анализом данных

Когда я обучалась в магистратуре, у нас был очень интересный для меня предмет – прикладной количественный анализ в международных отношениях. Дело в том, что в политических науках существует ряд количественных методов анализа. Мы изучали методы ивент- и контент-анализа, сетевого анализа (фактически построенного на теории графов), основы теории игр и медиаметрии. 

О работе

Многие подходы международно-политического анализа построены на анализе текстовой информации или средств массовой информации. Так как это направление меня заинтересовало, я целенаправленно хотела попасть в компанию, занимающуюся анализом СМИ. Так я начала работать в SCAN-Интерфакс. В SCAN разрабатывают, внедряют и применяют на практике одни из лучших на рынке решений в области NLP (Natural Language Processing — обработка естественных языков). Среди них тематическое моделирование, NEL (Named Entity Linking — связывание именованных сущностей), NER (Named Entity Recognition — распознавание именованных сущностей), сентимент-анализ, кластеризация текстов и другие. Конкретно наш отдел занимается NEL – то есть помогает системе понимать, о каком именно объекте идет речь в тексте.

Причем здесь Data Science

Уже в процессе работы я узнала об обработке естественных языков как о направлении Data Science. Решила пройти обучение, так как появилось желание понимать больше о том, как все устроено. 

ВШЭ я выбрала, основываясь на программе обучения – переподготовка включает не только изучение прикладных задач Data Science, но и теоретических основ – математики, статистики, алгоритмов. Для меня это было важно из-за того, что мое образование не является техническим. Также для меня важна была возможность посещать пары очно, мне просто так больше нравится.

Об обучении

Были опасения, что предметы, которые я не изучала ранее, не будут понятны – та же статистика или линейная алгебра. Не могу сказать, что учиться было просто, но программа была построена от простого к сложному, поэтому информация воспринималась хорошо. Также были интересные задания – писали бота, познакомились с платформой Kaggle. Было несколько проектов со свободным выбором тем – это хорошо, так как можно поработать над чем-то полезным для тебя.

Об итоговом проекте

Так как изначально я шла с желанием узнать больше о работе с текстами, мы с научным руководителем выбрали соответствующую тему — рассматривали методы восстановления пунктуации в текстах, полученных с помощью систем распознавания речи. В процессе исследования поставили несколько экспериментов – рассмотрели разные архитектуры моделей и разные методы семплирования данных. В результате получили модель, которая восстановила знаки препинания на коротких текстах. Мы показали результаты работы модели не только на «синтетических» примерах с предварительно удаленной пунктуацией, но и на настоящих результатах распознавания речи – с ошибками в распознавании слов и их окончаний. Очень была рада тому, что проект получил высокую оценку комиссии. Но, конечно, выбранный метод имел некоторые ограничения, которые важно было осветить.

А что сейчас

Ожидания от обучения оправдались. Сейчас использую полученные навыки на прошлом месте работы. Недавно стала руководителем отдела — уверена, что новые знания помогают в понимании рабочих процессов. Сейчас продолжаю изучать материалы, которые советовали преподаватели, и планирую дальше расширять свои компетенции в сфере обработки естественного языка.

Пожелания абитуриентам

Абитуриентам желаю сил и готовности много учиться. Также хотелось бы пожелать уверенности и успехов тем абитуриентам, которые ранее изучали гуманитарные науки – в Data Science есть множество направлений, и знания в предметной области пригодятся для того, чтобы определиться со сферой интересов.

Познакомиться с современным анализом данных и машинным обучением можно на программе профессиональной переподготовки «Специалист по Data Science». Вы начнете с изучения программирования и базовых разделов математики, перейдете к прикладной статистике, классическим алгоритмам машинного обучения, глубинному обучению и работе с большими данными.