• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Статья
A rewriting framework and logic for activities subject to regulations

Kanovich M., Kirigin T. B., Nigam V. et al.

Mathematical Structures in Computer Science. 2017. Vol. 27. No. 3. P. 332-375.

Статья
Bias-Corrected Estimation in Continuous Sampling Plans
В печати

Decrouez G. G., Robinson A.

Risk Analysis: An International Journal. 2017. Vol. 38. No. 1. P. 177-193.

Статья
Dualization in lattices given by ordered sets of irreducibles

Babin M. A., Kuznetsov S.

Theoretical Computer Science. 2017. Vol. Volume 658, Part B. No. 7 January. P. 316-326.

Статья
Finite sample properties of the mean occupancy counts and probabilities

Decrouez G. G., Grabchak M., Paris Q.

Bernoulli: a journal of mathematical statistics and probability. 2018. Vol. 24. No. 3. P. 1910-1941.

Статья
The Minkowski central partition as a pointer to a suitable distance exponent and consensus partitioning

Mirkin B., Amorim R., Makarenkov V. et al.

Pattern Recognition. 2017. Vol. 67. P. 62-72.

Защита кандидатской диссертации сотрудника лаборатории Дмитрия Ильвовского

5 июня 2017 года, на заседании диссертационного совета ФИЦ ИУ РАН под председательством академика РАН Ю.С. Попкова  состоялась защита кандидатской диссертации научного сотрудника Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа, старшего преподавателя департамента анализа данных и искусственного интеллекта Дмитрия Алексеевича Ильвовского на тему "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей".
Дмитрий преподает автоматическую обработку текстов на нескольких факультетах НИУ ВШЭ, а также ведет факультатив «Анализ данных на платформе SAS» на Факультете компьютерных наук. Кандидатская диссертация непосредственно связана с этими дисциплинами: она посвящена анализу текстовых данных. Подробнее — в интервью с Дмитрием. 

Что можно найти и проанализировать в тексте?

В тексте можно найти очень много, просто пока что не все удается сделать автоматически. Самое главное — это смысл. Над его поиском бьются уже не первое десятилетие. Я пытаюсь выразить смысл текста с помощью его формальной структуры — графов, отражающих связи внутри текста. Находят эти связи, как правило, с помощью специальных средств — парсеров. Современные парсеры работают на принципах машинного обучения с добавлением экспертного знания. Найденные связи используют для прикладных задач, например, для информационного поиска. Я работаю с англоязычными текстами, но не оставляю надежды попробовать что-нибудь и для русского языка.

 Кто повлиял на Ваши научные интересы?

 На мои научные интересы очень сильно повлиял Борис Галицкий. Мы познакомились в Вышке на семинаре у Сергея Олеговича Кузнецова. В 2013 году я подключился к проекту Бориса, связанному с формальным представлением коротких текстов. Там как раз извлекались и использовались связи, о которых я упоминал. Идеи Бориса мне понравились и показались очень оригинальными, потихоньку я начал втягиваться и разбираться с происходящим. Проект продолжается до сих пор: мы ищем новые приложения для такой формализации смысла текста.

 Вы представляете свои работы на конференциях?

 Да, конечно, мы стараемся участвовать в крупных и просто интересных конференциях. Из последних можно упомянуть Европейскую конференцию по компьютерной лингвистике (EACL), Конференцию по компьютерной лингвистике (COLING) и, конечно, Ежегодный симпозиум компьютерных лингвистов — ACL. Это очень крупные события, в которых участвует по несколько тысяч человек.

 В чем главное достижение Вашей диссертации?

 Мне сложно выделить что-то особое: теорему Ферма не доказывал, геном не расшифровывал. Я применил к анализу текстов методы прикладной алгебры — речь о теории решеток замкнутых описаний. Звучит довольно страшно, но в действительности это богатый и математически компактный способ представления знаний. Я использовал некоторые идеи оттуда для представления структуры текстов.

Как развивается область анализа текстов, какие планы на будущее?

С 2013 года существенно повысилось качество извлечения некоторых связей из текста, в частности, дискурсивных связей. Это не наше достижение, но мы им воспользовались и научились проводить очень тонкое различие между текстами, написанными в разных стилях и жанрах.
Недавно мы начали заниматься аргументацией, то есть структурой убеждений и доводов. Стараемся понять, как она связана со смысловой структурой текста.