Основными задачами Центра являются:
1
Разработка и развитие интерпретируемых методов машинного обучения и майнинга данных для задач ОЕЯ (NLP) и рекомендательных системы
2
Разработка моделей, позволяющих обогатить функциональность существующих больших языковых моделей за счет привлечения дополнительных ресурсов: лингвистических моделей, моделей знания, поисковых моделей, алгоритмов планирования
3
Разработка моделей и методов автоматического приобретения знаний с помощью больших языковых моделей (БЯМ), в том числе методов переноса обучения между разными языками и разными задачами
4
Разработка моделей и методов исследования, моделирования и анализа в рамках теории сложных систем
5
Разработка инструментов семантического анализа на основе математических методов в теории формальных понятий
Структура
Международная лаборатория интеллектуальных систем и структурного анализа
Проводим исследования, позволяющие объединять структурные и нейросетевые представления в задачах прикладного анализа данных
Научно-учебная лаборатория моделей и методов вычислительной прагматики
Мы занимаемся задачами обработки естественного языка (nlp), интерпретируемым машинным обучением и майнингом данных, разработкой рекомендательных систем и сервисов и развиваем методы мультимодальной кластеризации и классификации, позволяющие формировать профиль интересов пользователя с учетом различных модальностей
Научно-учебная лаборатория моделирования и управления сложными системами
Мы занимаемся фундаментальными и прикладными исследованиями по математическому моделированию сложных систем, изучением феноменов синхронизации, внезапных изменений режимов, квази-регулярностей, самоорганизации, оценке эффективности алгоритмов прогнозов редких событий и управлению сложными системами
Лаборатория анализа семантики
Мы занимаемся исследованием естественного языка как единого целого в рамках естественно-научной парадигмы с помощью методов компьютерных наук и прикладной математики
Руководство
Директор центра, доктор математических наук, профессор
Заместитель директора Центра, кандидат юридических наук
Новости
Состоялась защита кандидатской диссертации Ананьевой Марины Евгеньевны
31 октября, 2025 г.
-
-
-
Разложение тензориального произведения на ротор и деформацию
6 октября, 2025 г.
-
Публикации
-
Книга
Базовые методы анализа данных : учебник и практикум для вузов
Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
М.: Юрайт, 2024.
-
Статья
-
Глава в книге
KoWit-24: A Richly Annotated Dataset of Wordplay in News Headlines
We present KoWit-24, a dataset with fine-grained annotation of wordplay in 2,700 Russian news headlines. KoWit-24 annotations include the presence of wordplay, its type, wordplay anchors, and words/phrases the wordplay refers to. Unlike the majority of existing humor collections of canned jokes, KoWit-24 provides wordplay contexts – each headline is accompanied by the news lead and summary. The most common type of wordplay in the dataset is the transformation of collocations, idioms, and named entities – the mechanism that has been underrepresented in previous humor datasets. Our experiments with five LLMs show that there is ample room for improvement in wordplay detection and interpretation tasks. The dataset and evaluation scripts are available at https://github.com/Humor-Research/KoWit-24
In bk.: Proceedings of the 15th International Conference on Recent Advances in Natural Language Processing. Shumen: INCOMA Ltd, 2025. P. 125-132.
-
Препринт