«Моя жизнь связана с Высшей школой экономики уже 10 лет»
31 октября состоялась защита кандидатской диссертации Екатерины Черняк, выпускницы бакалавриата и магистратуры отделения «Прикладной математики и информатики» первого набора, научного сотрудника Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа и преподавателя факультета компьютерных наук. Как научить компьютер выделять корни в сложных немецких словах, что общего между цепочками геномов и стихотворениями Маяковского, почему с помощью глубинного обучения можно предсказывать будущее – об этом и многом другом читайте в интервью Екатерины.
О выборе пути
К концу 11 класса матшколы у меня не было четкого представления, что я хочу делать в жизни, но интуитивно я понимала, что с Computer Science я всегда смогу найти работу. Учителя советовали мне поступать на лингвистику. Я тогда совершенно не знала, что это такое, и выбрала более понятное направление – прикладная математика и информатика. Но жизнь привела к тому, что фактически, лингвистикой я и занимаюсь.
Основной интерес к области, в которой я веду исследования, появился у меня на 3 курсе бакалавриата, когда у нас начались лекции Ф.Т. Алескерова, Д.И. Игнатова, Б.Г. Миркина и С.А. Объедкова по теории принятия решений, анализу данных и машинному обучению. Тогда я поняла, что это будет моей специальностью.
После того, как я закончила бакалавриат, по рекомендации своего научного руководителя, Бориса Григорьевича Миркина, я ездила на стажировку в Новый Университет Лиссабона. И уже тогда для себя решила, что хочу поступать в магистратуру, затем в аспирантуру и связать свою жизнь с наукой.
Научная жизнь
Все, что я делаю в науке, связано с автоматической обработкой текстов, тема моей диссертации – «Разработка вычислительных методов анализа неструктурированных текстов с использованием аннотированных суффиксных деревьев». Одну из основных задач в этой области можно сформулировать так: из неструктурированного текста, представляющего собой набор слов, нужно создать математическую модель, которую можно затем анализировать и с ее помощью работать с текстом. Стандартная модель представления текста такая: задается векторное пространство, каждой его координате соответствует слово текста, а весь текст представляет собой вектор. У этой модели много разных недостатков, и мы пытаемся их преодолеть с использованием метода суффиксных деревьев. Этот метод заимствован из биоинформатики, где он используется для нахождения совпадающих фрагментов в цепочках геномов. В применении к нашей задаче суффиксные деревья позволяют находить все совпадения между подстроками за линейное время.
Я изучаю практическую применимость модели, основанной на суффиксных деревьях, в конкретных задачах. В анализе данных редко можно сказать, что в каком-то классе задач один метод будет лучше, чем другой, потому что речь идет о реальных данных. Поэтому обычно задачи решаются для конкретных примеров. Например, берется корпус текста, считаются какие-то метрики, анализируется эффективность модели в применении к этому корпусу и сравниваются данные с результатами в других моделях.
Самый наглядный пример был рассмотрен в моей кандидатской диссертации – удаление обсценных (ненормативных и матерных) слов из текста. На первый взгляд, задача тривиальна: обсценные слова в тексте нужно заменить на звездочки. Но в русском языке развитая морфология, обсценные слова образуются разными способами и сложно составить исчерпывающий словарь, постоянно возникают новые слова.
В своей работе я собрала и разметила корпус, состоящий из большого количества текстов с обсценными словами – от текстов песен группы «Ленинград» до стихов Маяковского и Пушкина, и проверила, какой способ поиска по заданному словарю окажется наиболее эффективным. В качестве словаря был рассмотрен список слов, запрещенных к использованию в доменной зоне Российской Федерации. Этот словарь относительно небольшой, и в него нужно было добавить все возможные формы слов, учитывая, что они могут отличаться на приставку или суффикс и так далее. Оказалось, что в модели с суффиксными деревьями этот метод работает лучше, чем в традиционной векторной или при использовании редакционного расстояния.
Другая задача, которую я исследовала, связана с категоризацией текстов. Например, есть тексты про спорт, а есть про еду. Среди текстов про спорт можно выделить статьи про футбол и хоккей, а среди статей о футболе – про обычный футбол и американский. Так, задана некоторая иерархическая система категорий и обучающие данные – множество текстов, которые уже разделены в соответствии с этими категориями. Нужно научиться быстро находить статьи в заданной категории. Такая задача возникает, например, при создании цифровых библиотек. Для ее решения я разрабатывала методы автоматической категоризации и строила рубрикаторы.
Преподавание и работа в Вышке
Во время учебы я работала учебным ассистентом, после этого несколько лет преподавала семинары по курсу «Анализ и разработка данных» профессора Миркина, а с прошлого года стала вести уже собственный курс по автоматической обработке текстов. Еще вела занятия по повышению квалификации, в частности, на программах дополнительного профессионального образования ФКН, курс “Text Mining”. Конечно, преподавать студентам и взрослым слушателям – это не одно и тоже. У студентов больше спонтанных вопросов, они могут возникать по ходу изучения предмета. В этом смысле, у них менее замутненное сознание, чем у взрослых, которые приходят изучать только то, что нужно для работы. Еще различается скорость восприятия: у студентов иногда возникают трудности в очень простых вещах, и на их преодоление уходит время, а взрослые слушатели тверже знают основы.
Кроме преподавания курсов, я веду еще научную работу со студентами. Мои ученики рассматривали наборы текстов и строили меры сходства между ними, которые позволяли потом делать кластеризацию или суммаризацию этих текстов. По сути, нужно понять, как разбить корпус текстов на кластеры по заданному признаку «похожести». Для этого нужно придумать, как задать и измерить эту «похожесть». Оказывается, что если поставить каждому тексту в соответствие его суффиксное дерево, и дальше работать уже с деревьями, то по ним можно сформировать матрицы сходства, к которым можно потом применить стандартные алгоритмы.
Еще одна интересная задача, которой занимались мои студенты – разделение сложных немецких слов на корни. В немецком языке существительные могут «склеиваться» в одно длинное слово. Для адекватной индексации текста, которая нужна, например, для поиска или для машинного перевода, такие слова нужно уметь разделять на исходные составляющие. Мы снова использовали суффиксные деревья для агрегации корпусных частот и выбора правильного порога на частоту разбиения и получили результаты, вполне сопоставимые с международной практикой.
Другим своим важным начинанием в Вышке я считаю Тьюторский центр ФКН. Он был задуман как независимое подразделение для поддержки проектного семинара на образовательной программе «Прикладная математика и информатика», но на самом деле, мне удалось сделать гораздо больше: организовать серию технологических мастер-классов, студенческую конференцию, несколько лекций и курсов от компаний.
Задачи и планы на будущее
Сейчас я прохожу стажировку в лаборатории UKP в Техническом университете Дармштадта. Здесь я занимаюсь глубинным обучением. Это интересная возможность для развития, здесь очень сильная команда в области NLP и анализа текстов, работают крупные специалисты в этой области, и есть компьютеры, на которых можно обрабатывать огромные объемы данных.
Вообще говоря, мне интересны все задачи, связанные с лингвистикой и искусственным интеллектом. И одну из них – темпоральный анализ текстов – можно пробовать решать как раз с помощью глубинного обучения. Представим, что у нас есть коллекция текстов, развивающихся во времени: газеты, которые публикуются на одну и ту же тему, например, о политическом конфликте, или отзывы на продукт, которым люди пользуются уже много лет. В таких текстах сложно что-то анализировать, потому что данные очень быстро меняются и изменения обусловлены многими факторами. Ученые уже научились извлекать из таких текстов сюжетные линии, выделять события и сортировать их по времени. Но для этого сейчас требуются большие обучающие коллекции, то есть огромное количество размеченных данных, а также сложные системы признаков, для которых, в свою очередь, нужны сложные морфологические и синтаксические парсеры.
По всей видимости, с использованием новых методов глубинного обучения подобные задачи будут решаться проще, а значит, появятся новые приложения, источники данных, мы сможем выделять закономерности нового вида. Если научиться анализировать эти задачи глубже, то в конечном счете можно пытаться понять, почему людям со временем перестают нравиться некоторые вещи или предсказывать, как быстро какое-нибудь музыкальное произведение потеряет актуальность.
Если оглянуться назад, моя жизнь связана с Высшей школой экономики уже 10 лет. Сейчас я планирую закончить стажировку и на какое-то время вернуться в Вышку. Если заниматься, скажем, чистой математикой, вопрос не уйти ли в индустрию возникает реже. А когда работаешь с реальными данными и твои исследования идут неотрывно с приложениями, часто бывает непросто решить, что интереснее и перспективнее. Останусь я в академии насовсем или нет – сказать сложно, пока не загадываю.
Интервью подготовила Ольга Подольская
Артемова Екатерина Леонидовна
Объедков Сергей Александрович