Цели и задачи НУГ

Задачи автоматизации интерпретации текстов были актуальными всегда. Современное развитие вычислительной техники и сетей интернета добавило новую размерность к этой тематике – возможность одновременного анализа многих текстов на сходные темы, причем данные с самого начала представлены в цифровой форме.

Многие группы исследователей и частные компании разрабатывают различные подходы к проблеме. Очевидно, всех этих усилий совершенно недостаточно: мы пока очень далеки от какого-либо понимания многоуровневых и многозначных феноменов языка, когнитивных систем, систем социальных коммуникаций и пр. А без этого никакие серьезные продвижения невозможны. Данная работа примыкает к тому направлению, которое пытается использовать именно свойства интернета, связанные с возможностью семантического анализа текстов на основе чисто статистических свойств документов на сходные темы. При этом методологическая база данного исследования выгодно отличается тем, что включает комбинацию подходов кластерного анализа с подходами таксономических и онтологических построений на русскоязычных документах.

Цель проекта – формирование методов визуализации текстов на древовидных структурах двух типов – суффиксных деревьях (аннотированных буквами), таксономиях (аннотированных понятиями) с использованием аппарата аннотированных суффиксных деревьев, аппроксимационного кластерного и бикластерного анализа и экономного «подъёма» множеств, разработанного руководителем проекта или при его участии. Для этого будут использованы следующие конкретные материалы:

Материалы ВАК по паспортизации научных направлений, а также такие ресурсы Интернета, как Википедия. Цель: разработка альтернативной таксономии Математики, Информатики и их применений (эта задача возникла в связи с нашим предыдущим проектом, так как оказалось, что существующая таксономия математики в РЖ Математика не подходит для целей анализа из-за своей фрагментарности и несбалансированности).
Материалы новостных материалов Интернета о развитии бизнес-процессов в стране и её регионах. Здесь мы ориентируемся на наш успешный опыт анализа тысячи интернет-документов: удалось построить граф взаимо-зависимости ключевых словосочетаний, отражающий основные черты бизнес-процесса в России в соответствующий период времени.
Коллекция писем трудящихся в городскую администрацию по поводу различных жилищных, транспортных и иных проблем (собрана под руководством профессора Э.А. Бабкина в НИУ ВШЭ Нижний Новгород). Здесь мы ориентируемся на таксономию проблем, построенную нами в результате предварительного анализа пяти сотен таких писем.

Каждый из материалов (1), (2), (3) соответствует отдельной прикладной задаче: построение таксономии в (1) и ее использование для анализа коллекций документов; обобщение новостного материала в (2); анализ проблем большого города в разрезе интересов жителей в (3). Все эти материалы будут анализироваться по общей схеме, разработанной в предыдущем проекте:

(а) На основе содержательных соображений «вручную» разрабатывается «грубая» таксономия, включающая не более двух-трёх уровней;

(б) с допустимых интернет страниц автоматически считываются релевантные документы и преобразуются так, чтобы могла работать программа формирования таблицы связи словосочетаний и документов;

(в) таблица «словосочетание-документ» обрабатывается определённым образом, в зависимости от задачи:

(в1) анализ связей между словосочетаниями;

(в2) пополнение имеющейся таксономии путём формирования «подходящих» и отбрасывания «неподходящих» словосочетаний из Википедии;

(в3) формирование кластеров словосочетаний и их отображение на уже построенную таксономию.

В данной схеме имеется большое число пробелов, которые необходимо заполнить: например, автоматизация считывания документов и их структуры из «больших» данных в (в1); правильные критерии выбора адекватных и отбраковки неадекватных документов, категорий и словосочетаний в (в2), для чего необходимо использование адекватных семантических средств таких, как соответствующие русскоязычные тезаурусы; адекватные алгоритмы кластеризации и бикластеризации, допускающие автоматизацию выбора таких параметров как число кластеров, в (в3). В проекте будут разрабатываться и апробироваться соответствующие средства, причём большое внимание будет уделено разработке и использованию средств визуализации возникающих древовидных структур.

Направление данной работы идёт в русле международных разработок по исследованию онтологий [1], по автоматизации анализа неструктурированных текстов [2-4], а также и по автоматизации совместного использования того и другого [5-6]. Она выделяется, по крайней мере четырьмя особенностями:

Во-первых, мы работаем только с одним типом онтологических отношений – тем самым, который образует иерархическое отношение в таксономии, но зато с разнообразными предметными областями, тогда как основной поток разработок в англоязычной литературе, напротив, ограничен довольно специфической предметной областью биологии и био-информатики, но зато рассматривает разнообразный типы отношений между понятиями.

Во-вторых, мы ориентируемся на визуализацию получаемых результатов анализа текстов на древовидных структурах, так как используем оригинальный метод отображения кластеров на таксономиях.

В-третьих, мы используем оригинальную меру соответствия между текстами и индивидуальными словосочетаниями, которая – в отличие от мер, рассматривавшихся в литературе - не зависит от длины рассматриваемых текстов и, тем самым, позволяет применять к ним классический подход кластер-анализа.

В-четвертых, несмотря на то, что разрабатываемый аппарат не зависит от языка, наше положение уникально из-за ориентации на русскоязычные тексты Интернета.

Литература

1. P.N. Robinson, S. Bauer (2011) Introduction to Bio-Ontologies, Chapman & Hall, USA.

2. R. Feldman, J. Sanger (2007) The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, USA.

3. G. King (2012) Automated and computer-assisted methods of extracting, organizing, and consuming knowledge from unstructured text, http://gking.harvard.edu/category/ research-interests/applications/automated-text-analysis.

4. G.Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012) Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press, USA.

5. K. Khelif, R. Dieng-Kuntz, P. Barbry (2007) An ontology-based approach to support text mining

and information retrieval in the biological domain, J. of Universal Comp. Sci., 13, 1881-2007.

6. Text Mining Resources: Ontologies (2012), The UK National Centre for Text Mining, http://www.nactem.ac.uk/resources.php?view=5.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа «Методы анализа и визуализации веб-корпусов»

Цели и задачи НУГ