История и ислледования группы

Мы разрабатываем подход, который исходит из заданных: (а) коллекции текстов Т и (б) совокупности интересующих пользователя словосочетаний С. В результате обработки на выходе должны быть отображены интересные характеристики использования данных словосочетаний в текстах данной коллекции. Обычно это делается путём так называемого контент-анализа. Контент-анализ выявляет и показывает такие словосочетания, которые в данной коллекции используются необычным образом: либо значительно чаще, либо значительно реже, чем в среднем. Пользователь видит эти необычные «знаки» и интерпретирует их в соответствии со своим пониманием явления, представляемого данной коллекцией текстов.

Мы идём дальше. Мы показываем необычные связи между словосочетаниями. Эти связи отображаются тем, что мы называем графом референций. Вершинами являются заданные словосочетания. Стрелка ведёт от А к Б, если в нашей коллекции тексты, содержащие А, как правило, содержат и Б. Такая связь в какой-то мере может отражать логику тех, кто написал тексты нашей коллекции. Поэтому мы называем программу, строящую граф референций, монитором скрытых смыслов – Latent Meaning Monitor (ссылка).

Оказывается, граф референций — новость не только для тех, кто делает контент-анализ, но и для тех, кто визуализирует коллекции текстов. Имеется несколько разных подходов к визуализации текстов и десятки программ (ссылка), реализующих их, но, как легко видеть, графа, аналогичного графу референций, там нет.

Мы не сразу пришли к этому понятию. Помощь «Научного Фонда» НИУ ВШЭ была существенной.

Первая НУГ 2012 занималась многими задачами, связанными с интерпретацией текстов (см. Миркин, Черняк, Чугунова 2012 и страницу), и мы продолжаем начатые тогда работы по построению и использованию таксономий. Но главный результат с точки зрения сегодняшнего дня – это формирование нашей методики автоматизации анализа русскоязычных текстов с использованием суффиксных деревьев/массивов и введённой нами естественной меры релевантности строка-текст.

Следующая НУГ 2013/14 ввела и использовала, в единичных случаях, понятие графа референций и сконцентрировалась на построении математического обеспечения для загрузки русскоязычных газетных текстов, их обработки, и удобного визуального представления графа референций. В результате мы имеем некий нулевой степени прототип ЛМ Монитора (ссылка).

Основные задачи НУГ 2015 связаны с превращением нашей программы в работающий инструмент. Необходимо существенно продвинуться в решении трёх ключевых проблем:

автоматизация выбора параметров построения графа референций, прежде всего, порога релевантности, порога референции и уровня поддержки;
автоматизация интерпретации таблицы и графа референций, в том числе сопоставление графов, полученных на разных коллекциях текстов;
распространение графа референций и его визуализации на данные, меняющиеся во времени.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа «Методы анализа и визуализации веб-корпусов»

История и ислледования группы