Статьи исследователей ФКН приняты на конференцию EMNLP 2021
Ежегодная конференция EMNLP (Conference on Empirical Methods in Natural Language Processing), посвященная методам обработки естественного языка, проходит 7-11 ноября 2021 года.
Пять статей исследователей ФКН были приняты на EMNLP 2021:
-
Artificial Text Detection via Examining the Topology of Attention Maps (Л. Кушнарева, Д. Чернявский, В. Михайлов, Екатерина Артемова, С. Баранников, А. Бернштейн, И. Пионтковская, Д. Пионтковский, Е. Бурнаев);
-
NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis (Николай Арефьев, Д. Харчев, А. Шелманов);
-
SPARQLing Database Queries from Intermediate Question Decompositions (Ирина Сапарина, Антон Осокин);
-
Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length Bias and Beam-Search Degradation (И. Провилков, Андрей Малинин);
-
Uncertainty Measures in Neural Belief Tracking and the Effects on Dialogue Policy Performance (C. van Niekerk, Андрей Малинин, Ch. Geishauser, M. Heck, H. Lin, N. Lubis, S. Feng, M. Gašić).
По нашей просьбе авторы рассказали о своих исследованиях:
Артемова Екатерина Леонидовна
Научно-учебная лаборатория моделей и методов вычислительной прагматики: Научный сотрудник
Современные модели генерации текстов показывают впечатляющие результаты: они могут сочинить стихотворение, изменить стиль текстов и даже написать осмысленное эссе на свободную тематику. Однако такие модели могут быть использованы в злонамеренных целях, например, для генерации фейковых новостей, отзывов на продукты и политического контента. Так, возникает новая задача: научиться отличать тексты, написанные человеком, от текстов, сгенерированных нейросетевыми языковыми моделями. Именно этой задаче посвящена наша статья «Artificial Text Detection via Examining the Topology of Attention Maps».
В этой статье мы исследовали применимость методов топологического анализа данных (ТАД) к задаче обнаружения сгенерированных предложений. Мы предположили, что топологические признаки, получаемые из языковых моделей, могут кодировать необходимые для задачи поверхностные и структурные свойства предложений.
Вообще, методы ТАД очень редко используют в обработке текстов. Поэтому, наш первый результат — это определение различных типов топологических признаков: мы показали, как посчитать числа Бетти, баркоды и графовые расстояния до шаблонов на основании карт внимания. Топологические признаки формируют векторное представление, которое можно считать аналогом стандартных векторных представлений, и которое можно использовать для обучения классификаторов. В итоге, классификаторы, использующие топологические представления, обладают явными преимуществами: во-первых, в некоторых случаях они работают лучше, чем стандартные нейросетевые классификаторы. Во-вторых, они более устойчивы: классификатор, обученный определять предложения, сгенерированные одной моделью, может обнаружить предложения, сгенерированные и другой моделью.
Завершающая часть статьи посвящена интерпретации топологических признаков. Мы показали, что как и предполагалось, топологические признаки успешно кодируют длину предложения и глубину синтаксического дерева. В целом, наша статья — это междисциплинарный проект, выполненный на стыке математики и обработки текстов. Мы надеемся, что наши результаты привлекут внимание и математиков, и коллег-лингвистов, и зададут новые исследовательские вопросы для обеих дисциплин.
Один из авторов статьи — профессор департамента математики факультета экономических наук НИУ ВШЭ Дмитрий Пионтковский.
Арефьев Николай Викторович
Научно-учебная лаборатория моделей и методов вычислительной прагматики: Младший научный сотрудник
Руководитель проектной группы «Межъязыковые методы выделения значений многозначных слов» научно-учебной лаборатории моделей и методов вычислительной прагматики.
Современный подход к обучению нейросетей решению задач обработки текстов предполагает три этапа обучения. На первом этапе мы показываем нейросети тексты, в которых некоторые слова спрятаны, и учим нейросеть угадывать спрятанные слова. Для этого этапа не требуется какой-либо разметки обучающих текстов человеком, благодаря чему удается обучать сети на терабайтах текстов, скачанных из Интернета. На втором этапе нейросеть учится тому же самому, но уже на текстах из целевой предметной области (например, отзывах о фильмах) — так она адаптируется к текстам определенного типа, с которым ей предстоит дальше работать. На третьем этапе нейросеть учится решать уже целевую задачу (например, отличать положительные отзывы от отрицательных), для этого используются размеченные людьми примеры, количество которых обычно сравнительно невелико.
В предыдущих моделях слова, которые нейросеть училась угадывать на первых двух этапах, выбирались из текстов случайно, в большинстве своем являлись просто служебными словами, никак не связанными с целевой задачей. В нашей статье мы предлагаем учить модель угадывать прежде всего слова, связанные с целевой задачей (например, положительные и отрицательные характеристики фильмов). Это позволяет уже на этапе адаптации сфокусировать ресурсы сети на обнаружении тех признаков, которые релевантны решению целевой задачи, что ускоряет адаптацию и улучшает качество итоговой модели. Эксперименты показали, что предложенный нами подход особенно эффективен при адаптации на больших коллекциях текстов.
Сапарина Ирина Олеговна
Научно-учебная лаборатория компании Яндекс: Стажер-исследователь
Мы рассматриваем задачу перевода вопроса на естественном языке к базе данных в выполнимый запрос. Решение этой задачи позволит работать с базами данных без знания языков запросов.
Многие исследования направлены на генерацию SQL запросов. Чаще всего для этого используют нейросетевые модели, которые обучаются на данных, содержащих базы, вопросы к ним и соответствующие правильные запросы. Однако собирать такую разметку сложно, так как нужно, чтобы аннотаторы знали язык запросов для их написания (например, SQL).
В нашей работе мы хотели отказаться от использования разметки с запросами для обучения, но при этом сохранить возможность модели генерировать выполняемые запросы. Для этого мы использовали промежуточные представления вопроса, которые в отличие от полноценных запросов можно собрать краудсорсингом.
Наша система состоит из двух компонент: генерация промежуточных представлений по вопросу и перевод этих представления в запросы на языке SPARQL. Важно, что только первая компонента реализована с помощью нейросети, и эта нейросеть обучается на простой для сбора разметке. В результате мы получили систему, которая работает на уровне лучших существующих методов по генерации SQL, но при этом менее требовательна к разметке.
Арефьев Николай Викторович
Артемова Екатерина Леонидовна
Малинин Андрей Алексеевич
Осокин Антон Александрович
Сапарина Ирина Олеговна