• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сотрудники лаборатории приняли участие в организации соревнования RuREBus

Подробнее про корпус, типы отношений и сущностей можно прочитать в репозитории соревнования, которое сотрудники лаборатории провели в рамках конференции Диалог 2020 на данных RuREBus.

Сотрудники лаборатории приняли участие в организации соревнования RuREBus

Извлечение именованных сущностей (named entity recognition, NER) – это хорошо изученная задача, для которой существует довольно много датасетов, и SOTA модели показывают на них высокое качество. В то же время, в бизнес-задачах, зачастую, достичь таких же высоких результатов не получается: документы и нужные сущности обладают доменной спецификой, текст написан сухим канцелярским языком (как, например, деловые документы), или, напротив, представляет из себя разговорную речь (например, диалоги в чат-ботах). Кроме того, полезно извлекать не только сущности, но и отношения между ними, и для этой задачи корпусов с разметкой значительно меньше.


Мы представляем корпус RuREBus (Russian Relation Extraction for Business) – документы стратегического планирования Министерства экономического развития РФ c разметкой сущностей и отношений. Подробнее про корпус, типы отношений и сущностей можно прочитать в репозитории соревнования, которое мы провели в рамках конференции Диалог 2020 на данных RuREBus.

   Про возможные приложения нашей разметки и исследование корпуса можно послушать в видео-презентации нашей статьи “So What’s the Plan? Mining Strategic Planning Documents” для конференции Digital Transformation & Global Society (DTGS 2020).


Разметка корпуса и базовые решения представлены в статье:

Ivanin, Vitaly and Artemova, Ekaterina and Batura, Tatiana and Ivanov, Vladimir and Sarkisyan, Veronika and Tutubalina, Elena and Smurov, Ivan  “RuREBus-2020 Shared Task: Russian Relation Extraction for Business”, Computational  Linguistics  and  Intellectual  Technologies:  Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika  i  Intellektual’nye  Tehnologii:  Trudy  Mezhdunarodnoj  Konferentsii  “Dialog”, 2020, Moscow, Russia