Основными задачами Центра являются:
1
Разработка и развитие интерпретируемых методов машинного обучения и майнинга данных для задач ОЕЯ (NLP) и рекомендательных системы
2
Разработка моделей, позволяющих обогатить функциональность существующих больших языковых моделей за счет привлечения дополнительных ресурсов: лингвистических моделей, моделей знания, поисковых моделей, алгоритмов планирования
3
Разработка моделей и методов автоматического приобретения знаний с помощью больших языковых моделей (БЯМ), в том числе методов переноса обучения между разными языками и разными задачами
4
Разработка моделей и методов исследования, моделирования и анализа в рамках теории сложных систем
5
Разработка инструментов семантического анализа на основе математических методов в теории формальных понятий
Структура
Международная лаборатория интеллектуальных систем и структурного анализа
Проводим исследования, позволяющие объединять структурные и нейросетевые представления в задачах прикладного анализа данных
Научно-учебная лаборатория моделей и методов вычислительной прагматики
Мы занимаемся задачами обработки естественного языка (nlp), интерпретируемым машинным обучением и майнингом данных, разработкой рекомендательных систем и сервисов и развиваем методы мультимодальной кластеризации и классификации, позволяющие формировать профиль интересов пользователя с учетом различных модальностей
Научно-учебная лаборатория моделирования и управления сложными системами
Мы занимаемся фундаментальными и прикладными исследованиями по математическому моделированию сложных систем, изучением феноменов синхронизации, внезапных изменений режимов, квази-регулярностей, самоорганизации, оценке эффективности алгоритмов прогнозов редких событий и управлению сложными системами
Лаборатория анализа семантики
Мы занимаемся исследованием естественного языка как единого целого в рамках естественно-научной парадигмы с помощью методов компьютерных наук и прикладной математики
Руководство
Директор центра, доктор математических наук, профессор
Заместитель директора Центра, кандидат юридических наук
Новости
Состоялась защита кандидатской диссертации Ананьевой Марины Евгеньевны
31 октября, 2025 г.
-
-
-
Разложение тензориального произведения на ротор и деформацию
6 октября, 2025 г.
-
Публикации
-
Книга
Базовые методы анализа данных : учебник и практикум для вузов
Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
М.: Юрайт, 2024.
-
Статья
Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке
Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как задержка, вычислительные затраты на адаптацию и степень катастрофического забывания. Данная статья восполняет этот пробел и предлагает многоаспектное сравнение нескольких методов адаптации токенизаторов для фиксированной LLM на основе декодера. В наших экспериментах мы сосредоточились только на тексте на русском языке для обеспечения чистоты эксперимента в условиях ограниченных ресурсов. В контролируемых условиях мы сравнили три метода. Работа устанавливает новые базовые показатели адаптации токенизатора к русскому языку и демонстрирует вычислительно эффективный способ повышения производительности, снижая потребление GPU-часов в 2–3 раза.
Doklady Mathematics. 2025. Vol. 527. P. 320-331.
-
Глава в книге
-
Препринт