• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О проекте

Исследовательский проект НУГ «Концепт» «Разработка методов структуризации и концептуализации текстовых данных на основе таксономии предметной области» № 19-04-019, поддержанный Программой «Научный фонд НИУ ВШЭ» в 2019-2020 гг.

Цель исследования — адаптация метода экономного лифтинга в таксономиях к реальным данным и проблемам автоматизации семантического анализа интернетных данных.

Включает следующие задачи:

  • доработку англоязычной таксономии для «Науки данных;
  • дальнейшее развитие методов автоматизации выявления ключевых понятий в текстах, оценки релевантности между понятиями и текстами, а также формирования иерархических таксономий по сетевым данным;
  • развитие и адаптацию методов преобразования сетевых данных и выявления в них нечетких кластеров;
  • автоматизацию выбора штрафов за дополнительные элементы таксономии, возникающие при лифтинге нечетких тематических кластеров, включая, возможно, переход от критерия максимальной экономии к более адекватному критерию максимального правдоподобия.

Ключевым в данном проекте является метод экономного лифтинга нечеткого множества в таксономиях, разработанный Б.Г. Миркиным с соавторами. Речь идет об автоматизации формирования концепции, обобщающей заданное множество тематических единиц более частного порядка. Основа автоматизации –таксономия предметной области, то есть совокупности тематических единиц, иерархически упорядоченных отношением «Т1 является частью Т2».

Заданное множество тематических единиц М соответствует каким-то элементам низких уровней иерархии. Задача состоит в том, чтобы найти такое вышележащее понятие, которое бы как можно плотнее облегало заданное множество М (так называемое «головное» понятие П) – оно и будет представлять искомую обобщающую концепцию. Это достигается ценой использования ошибок двух типов – «пробелов» и «выбросов». Пробел – это такое понятие из таксономии, которое покрывается понятием П, но не принадлежит М. Выброс — это такое понятие таксономии, которое принадлежит М, но не покрывается обобщающим понятием П. Качество найденного обобщающего понятия П характеризуется суммой штрафов, назначаемых за пробелы, выбросы и введенные головные понятия. Чем суммарный штраф меньше, тем точнее и лучше найденное обобщающее понятие. 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.