• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар НУГ №2: Дмитрий Фролов и Борис Миркин

С докладом на тему "Метод наиболее подходящего обобщения нечеткого множества запроса в таксономии" на научном семинаре группы выступил Борис Григорьевич Миркин.

В работе предложена новая задача и метод для отыскания наиболее подходящего обобщения множества запроса, представленного нечетким множеством понятий данной области знаний, приписанных листьям корневого дерева её таксономии. Этот метод, названный Паргенм, «поднимает» множество запроса в одну или несколько «головных» вершин на более высоких уровнях дерева таксономии. Головная вершина должна покрывать множество запроса наиболее тесным образом, даже если оно разбросано по разным ветвям таксономии. Это достигается за счет минимизации общего числа головных вершин и возникающих при них «провалах» и «выбросах». «Провалы» — это вершины, покрываемые головной вершиной, но не входящие в множество запроса. «Выбросы», напротив, — это вершины, входящие в множество запроса, но не покрываемые головной вершиной.  Общий штраф того или иного способа подъема вычисляется как сумма штрафов за все внесенные элементы – головные вершины, провалы и выбросы. Наш метод решает задачу минимизации общего штрафа путем рекуррентного перехода от листьев дерева таксономии к его корню.

Метод Паргенм применен в 2 задачах:

(а) Структурный анализ и характеризация коллекции научных публикаций, связанных с Наукой Данных. Сначала мы получаем нечеткие кластеры понятий, помечающих листья нашей таксономии ТНД, в соответствии со структурой коллекции. При этом используются оценки релевантности «текст-ключевое понятие», формируемые с помощью ранее нами разработанного метода аннотированных суффиксных деревьев. Затем мы поднимаем в ТНД с помощью метода Паргенм три кластера, относящихся к ясно различимым темам Науки данных: (a) машинное обучение, (b) извлечение информации и (c) кластер-анализ. Полученные результаты позволяют сделать определенные выводы о тенденциях развития соответствующих областей науки данных.

(б) Таргетированная интернет-реклама. Использование известной таксономии ИАБ для формулировки запросов, а также описания интернет-поведения пользователей компанией Натиматика позволяет формировать контингент, существенно повышающий эффективность таргетирования.

 

Совместная работа с Тревором Феннером (Лондон, Биркбек колледж ЛУ) и Сузаной Насименто (Лиссабон, Новый университет).