Соревнование по упрощению предложений в рамках конференции Диалог
Исследователи НУЛ ММВП Екатерина Артемова, Елена Тутубалина и Алена Пестова приняли участие в организации соревнования по упрощению предложений на русском языке. Результаты соревнования были представлены на конференции Диалог 17 июня 2021 года.
Задача упрощения тестов (text simplification) предполагает несколько постановок, из которых была выбрана самая популярная: упрощение на уровне предложений. В такой постановке задача заключается в том, чтобы из сложного предложения получить упрощенное. Критерии сложности предложения включают в себя наличие сложных грамматических конструкций, в том числе, причастных и деепричастных оборотов, подчиненных предложений, наличие редких и неоднозначных слов и т.д.
Большая часть вычислительных моделей упрощения текста используют нейросетевые seq2seq модели, которые обучаются по параллельным данным, то есть, по парам сложное предложение – простое предложение. Сотрудники лаборатории составили набор таких параллельных предложений и предоставили их участникам соревнования для обучения моделей. Поскольку для русского языка подобного набора данных не существовало, он был создан специально для соревнования. Основой обучающего набора данных послужили переведенные с английского материалы Википедии (English Wikipedia) и упрощенной Википедии (Simple English Wikipedia), подвергнутые дополнительной фильтрации. Вторая часть набора данных, используемая для оценки и тестирования, составлена на краудсорсинговой платформе. В качестве метрики качества использована мера SARI (System output Against References and against the Input sentence).
В соревновании приняло участие 14 команд. Всего было подано более 350 решений. По результатам тестирования были определены три победителя соревнования. Статья организаторов, содержащая подробный отчет о соревновании, а также статьи участников соревнования, прошли дополнительное рецензирование и будут опубликованы в сборнике трудов конференции Диалог.
Все материалы соревнования доступны в репозитории по ссылке. Соревнование остается открытым, платформа соревнования (доступна по ссылке) продолжает принимать решения.