От международных отношений к анализу текстов. Выпускница программы «Специалист по Data Science» о своем опыте
О предыдущем образовании и работе
Я из тех студентов, чье основное образование не связано со сферой информационных технологий – год назад я окончила магистратуру по направлению «Международные отношения». Разделы по программированию и математике программа этого направления не включает. На работе мои обязанности соответствовали образованию – например, я работала в сфере переводов. До перехода на мое нынешнее место работы я не думала о смене сферы деятельности.
Первая встреча с анализом данных
Когда я обучалась в магистратуре, у нас был очень интересный для меня предмет – прикладной количественный анализ в международных отношениях. Дело в том, что в политических науках существует ряд количественных методов анализа. Мы изучали методы ивент- и контент-анализа, сетевого анализа (фактически построенного на теории графов), основы теории игр и медиаметрии.
О работе
Многие подходы международно-политического анализа построены на анализе текстовой информации или средств массовой информации. Так как это направление меня заинтересовало, я целенаправленно хотела попасть в компанию, занимающуюся анализом СМИ. Так я начала работать в SCAN-Интерфакс. В SCAN разрабатывают, внедряют и применяют на практике одни из лучших на рынке решений в области NLP (Natural Language Processing — обработка естественных языков). Среди них тематическое моделирование, NEL (Named Entity Linking — связывание именованных сущностей), NER (Named Entity Recognition — распознавание именованных сущностей), сентимент-анализ, кластеризация текстов и другие. Конкретно наш отдел занимается NEL – то есть помогает системе понимать, о каком именно объекте идет речь в тексте.
Причем здесь Data Science
Уже в процессе работы я узнала об обработке естественных языков как о направлении Data Science. Решила пройти обучение, так как появилось желание понимать больше о том, как все устроено.
ВШЭ я выбрала, основываясь на программе обучения – переподготовка включает не только изучение прикладных задач Data Science, но и теоретических основ – математики, статистики, алгоритмов. Для меня это было важно из-за того, что мое образование не является техническим. Также для меня важна была возможность посещать пары очно, мне просто так больше нравится.
Об обучении
Были опасения, что предметы, которые я не изучала ранее, не будут понятны – та же статистика или линейная алгебра. Не могу сказать, что учиться было просто, но программа была построена от простого к сложному, поэтому информация воспринималась хорошо. Также были интересные задания – писали бота, познакомились с платформой Kaggle. Было несколько проектов со свободным выбором тем – это хорошо, так как можно поработать над чем-то полезным для тебя.
Об итоговом проекте
Так как изначально я шла с желанием узнать больше о работе с текстами, мы с научным руководителем выбрали соответствующую тему — рассматривали методы восстановления пунктуации в текстах, полученных с помощью систем распознавания речи. В процессе исследования поставили несколько экспериментов – рассмотрели разные архитектуры моделей и разные методы семплирования данных. В результате получили модель, которая восстановила знаки препинания на коротких текстах. Мы показали результаты работы модели не только на «синтетических» примерах с предварительно удаленной пунктуацией, но и на настоящих результатах распознавания речи – с ошибками в распознавании слов и их окончаний. Очень была рада тому, что проект получил высокую оценку комиссии. Но, конечно, выбранный метод имел некоторые ограничения, которые важно было осветить.
А что сейчас
Ожидания от обучения оправдались. Сейчас использую полученные навыки на прошлом месте работы. Недавно стала руководителем отдела — уверена, что новые знания помогают в понимании рабочих процессов. Сейчас продолжаю изучать материалы, которые советовали преподаватели, и планирую дальше расширять свои компетенции в сфере обработки естественного языка.
Пожелания абитуриентам
Абитуриентам желаю сил и готовности много учиться. Также хотелось бы пожелать уверенности и успехов тем абитуриентам, которые ранее изучали гуманитарные науки – в Data Science есть множество направлений, и знания в предметной области пригодятся для того, чтобы определиться со сферой интересов.
Познакомиться с современным анализом данных и машинным обучением можно на программе профессиональной переподготовки «Специалист по Data Science». Вы начнете с изучения программирования и базовых разделов математики, перейдете к прикладной статистике, классическим алгоритмам машинного обучения, глубинному обучению и работе с большими данными.