Сотрудники лаборатории приняли участие в организации соревнования RuREBus
Подробнее про корпус, типы отношений и сущностей можно прочитать в репозитории соревнования, которое сотрудники лаборатории провели в рамках конференции Диалог 2020 на данных RuREBus.
Извлечение именованных сущностей (named entity recognition, NER) – это хорошо изученная задача, для которой существует довольно много датасетов, и SOTA модели показывают на них высокое качество. В то же время, в бизнес-задачах, зачастую, достичь таких же высоких результатов не получается: документы и нужные сущности обладают доменной спецификой, текст написан сухим канцелярским языком (как, например, деловые документы), или, напротив, представляет из себя разговорную речь (например, диалоги в чат-ботах). Кроме того, полезно извлекать не только сущности, но и отношения между ними, и для этой задачи корпусов с разметкой значительно меньше.
Мы представляем корпус RuREBus (Russian Relation Extraction for Business) – документы стратегического планирования Министерства экономического развития РФ c разметкой сущностей и отношений. Подробнее про корпус, типы отношений и сущностей можно прочитать в репозитории соревнования, которое мы провели в рамках конференции Диалог 2020 на данных RuREBus.
Про возможные приложения нашей разметки и исследование корпуса можно послушать в видео-презентации нашей статьи “So What’s the Plan? Mining Strategic Planning Documents” для конференции Digital Transformation & Global Society (DTGS 2020).
Разметка корпуса и базовые решения представлены в статье:
Ivanin, Vitaly and Artemova, Ekaterina and Batura, Tatiana and Ivanov, Vladimir and Sarkisyan, Veronika and Tutubalina, Elena and Smurov, Ivan “RuREBus-2020 Shared Task: Russian Relation Extraction for Business”, Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”, 2020, Moscow, Russia