Онлайн-семинар «Энтропийный подход в тематическом моделировании»
5 ноября 2020 г. прошел восьмой онлайн-семинар по автоматической обработке текстов в Научно-учебной лаборатории моделей и методов вычислительной прагматики.
В докладе были рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма-Миттала) для анализа поведения ряда тематических моделей (ТМ). В докладе описывается подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. Тематическое моделирование рассматривается как процедура упорядочивания информационный системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, а поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. В рамках данного доклада было показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер – параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения, что чрезвычайно важно при работе с большими данными. В рамках данного доклада также была рассмотрена возможность применения энтропийного подхода к иерархическим тематическим моделям, и обсуждались ограничения данного подхода. Кроме того, в докладе были представлены результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результы расчетов нескольких иерархических тематических моделей (HPAM, HLDA, hARTM).