Основными задачами Центра являются:
1
Разработка и развитие интерпретируемых методов машинного обучения и майнинга данных для задач ОЕЯ (NLP) и рекомендательных системы
2
Разработка моделей, позволяющих обогатить функциональность существующих больших языковых моделей за счет привлечения дополнительных ресурсов: лингвистических моделей, моделей знания, поисковых моделей, алгоритмов планирования
3
Разработка моделей и методов автоматического приобретения знаний с помощью больших языковых моделей (БЯМ), в том числе методов переноса обучения между разными языками и разными задачами
4
Разработка моделей и методов исследования, моделирования и анализа в рамках теории сложных систем
5
Разработка инструментов семантического анализа на основе математических методов в теории формальных понятий
Структура
Международная лаборатория интеллектуальных систем и структурного анализа
Проводим исследования, позволяющие объединять структурные и нейросетевые представления в задачах прикладного анализа данных
Научно-учебная лаборатория моделей и методов вычислительной прагматики
Мы занимаемся задачами обработки естественного языка (nlp), интерпретируемым машинным обучением и майнингом данных, разработкой рекомендательных систем и сервисов и развиваем методы мультимодальной кластеризации и классификации, позволяющие формировать профиль интересов пользователя с учетом различных модальностей
Научно-учебная лаборатория моделирования и управления сложными системами
Мы занимаемся фундаментальными и прикладными исследованиями по математическому моделированию сложных систем, изучением феноменов синхронизации, внезапных изменений режимов, квази-регулярностей, самоорганизации, оценке эффективности алгоритмов прогнозов редких событий и управлению сложными системами
Лаборатория анализа семантики
Мы занимаемся исследованием естественного языка как единого целого в рамках естественно-научной парадигмы с помощью методов компьютерных наук и прикладной математики
Руководство
Директор центра, доктор математических наук, профессор
Заместитель директора Центра, кандидат юридических наук
Публикации
-
Книга
Базовые методы анализа данных : учебник и практикум для вузов
Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
М.: Юрайт, 2024.
-
Статья
-
Глава в книге
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
Мы предлагаем методы количественной оценки того, как большие языковые модели (LLM) кодируют и хранят контекстную информацию, и показываем, что токены, обычно считающиеся второстепенными (например, детерминативы и знаки препинания), на деле несут неожиданно высокий объём контекста. В частности, удаление таких токенов — особенно стоп-слов, артиклей и запятых — стабильно ухудшает качество на MMLU и BABILong-4k, даже когда удаляются лишь кажущиеся нерелевантными токены. Наш анализ также выявляет сильную связь между «контекстуализированностью» и линейностью, где линейность измеряет, насколько хорошо переход от представлений одного слоя к следующему можно аппроксимировать одной линейной отображающей матрицей. Эти результаты подчёркивают скрытую важность «заполняющих» токенов для поддержания контекста. Для дальнейшего исследования мы представляем LLM-Microscope — открытый инструментарий, который оценивает нелинейность на уровне токенов, измеряет контекстную память, визуализирует вклад промежуточных слоёв (с помощью адаптированного Logit Lens) и определяет внутреннюю размерность представлений. Этот набор инструментов демонстрирует, что на первый взгляд тривиальные токены могут быть критически важны для понимания дальнодействующих зависимостей.
In bk.: Findings of the Association for Computational Linguistics: NAACL 2025. Association for Computational Linguistics, 2025. P. 7757-7764.
-
Препринт