Онлайн-семинар "Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста"
19 марта 2020 года прошел первый онлайн-семинар Научно-учебной лаборатории моделей и методов вычислительной прагматики.
В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text). Однако актуальной задачей является также генерация связных текстов на основе данных нелингвистической природы, например, на основе графа знаний (knowledge graph) или сети лингвистических аннотаций. Среди прикладных применений решения этой задачи можно отметить генерацию виртуальных новостных лент и репортажей на основе статистической информации, построение погодных и финансовых отчетов, генерацию обобщенной информации о пациенте при автоматизации лечебно-профилактической деятельности.
В докладе рассматриваются основные подзадачи порождения текстов на основе данных нелингвистической природы и методы их решения. Особое внимание уделяется подходам к решению двух подзадач: декомпозиции исходного структурированного описания на фрагменты, соответствующие отдельным предложениям (sentence packaging), а также формированию дискурсивной схемы текста – определению порядка, в котором информация должна появляться в тексте. Из-за небольшого объема ресурсов с дискурсивной разметкой обучение сложных моделей для анализа дискурса является нетривиальной задачей. В докладе представлены предварительные результаты экспериментов с предобучением моделей анализа дискурса на большом автоматически размеченном корпусе текстов.
Докладчики:
- Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing Group (TALN), Department of Information and Communication Technologies, Pompeu Fabra University, Barcelona
- Дмитрий Алексеевич Девяткин, н.с. ФИЦ ИУ РАН