Семинар НУЛ ММВП "Энтропийный подход в тематическом моделировании"
В четверг, 5 ноября в 19.00 состоится онлайн-семинар по автоматической обработке текстов Научно-учебной лаборатории моделей и методов вычислительной прагматики.
Докладчики:
Кольцов Сергей Николаевич, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики.
Игнатенко Вера Викторовна, научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики.
В докладе будут рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма-Миттала) для анализа поведения ряда тематических моделей (ТМ). В докладе описывается подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. Тематическое моделирование рассматривается как процедура упорядочивания информационный системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, а поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. В рамках данного доклада будет показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер – параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения, что чрезвычайно важно при работе с большими данными. В рамках данного доклада также будет рассмотрена возможность применения энтропийного подхода к иерархическим тематическим моделям, и будут обсуждаться ограничения данного подхода. Кроме того, в докладе будут представлены результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результы расчетов нескольких иерархических тематических моделей (HPAM, HLDA, hARTM).
Семинар пройдет в формате онлайн-конференции.
Дата: 5 ноября 2020.
Время: 19:00.
Всем зарегистрировавшимся на семинар мы пришлем ссылку для входа в Zoom.