О Центре

Входит в структуру Факультета компьютерных наук НИУ ВШЭ и создан для решения задач обработки естественных языков и создания семантических технологий, опирающихся как на методы интерпретируемого искусственного интеллекта, так и на современные модели машинного обучения.

Основными задачами Центра являются:


1

Разработка и развитие интерпретируемых методов машинного обучения и майнинга данных для задач ОЕЯ (NLP) и рекомендательных системы


2

Разработка моделей, позволяющих обогатить функциональность существующих больших языковых моделей за счет привлечения дополнительных ресурсов: лингвистических моделей, моделей знания, поисковых моделей, алгоритмов планирования

 


3

Разработка моделей и методов автоматического приобретения знаний с помощью больших языковых моделей (БЯМ), в том числе методов переноса обучения между разными языками и разными задачами

 


4

Разработка моделей и методов исследования, моделирования и анализа в рамках теории сложных систем

 


5

Разработка инструментов семантического анализа на основе математических методов в теории формальных понятий

 

Структура

Международная лаборатория интеллектуальных систем и структурного анализа

Проводим исследования, позволяющие объединять структурные и нейросетевые представления в задачах прикладного анализа данных

Научно-учебная лаборатория моделей и методов вычислительной прагматики

Мы занимаемся задачами обработки естественного языка (nlp), интерпретируемым машинным обучением и майнингом данных, разработкой рекомендательных систем и сервисов и развиваем методы мультимодальной кластеризации и классификации, позволяющие формировать профиль интересов пользователя с учетом различных модальностей

Научно-учебная лаборатория моделирования и управления сложными системами

Мы занимаемся фундаментальными и прикладными исследованиями по математическому моделированию сложных систем, изучением феноменов синхронизации, внезапных изменений режимов, квази-регулярностей, самоорганизации, оценке эффективности алгоритмов прогнозов редких событий и управлению сложными системами

Лаборатория анализа семантики

Мы занимаемся исследованием естественного языка как единого целого в рамках естественно-научной парадигмы с помощью методов компьютерных наук и прикладной математики

Руководство

Кузнецов Сергей Олегович

Руководитель центра, доктор математических наук, профессор

Желязкова Марина Геннадьевна

Заместитель руководителя Центра, кандидат юридических наук

Публикации

  • Базовые методы анализа данных : учебник и практикум для вузов

    Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.

    М.: Юрайт, 2024.

  • Статья

    Levashov N. N., Tsareva O. O., V. Yu. Popov et al.

    Modeling of the Radiation Situation on the Earth during Solar Proton Events in the Process of Geomagnetic Reversal

    , ,

    Cosmic Research. 2025. Vol. 60. No. 1. P. 40-46.

  • Глава в книге

    Chernyavskiy A., Ilvovsky D., Nakov P.

    Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia: A Diagnostic Taxonomy and a Generative Framework

    Fact-checking is a crucial yet challenging task that continues to gain importance. In an effort to address this issue, the FEVER large-scale dataset was developed to facilitate evidence-based fact-checking using Wikipedia as a reference. Despite numerous proposed approaches and evaluations on this dataset, a comprehensive understanding of the errors made by these approaches is still lacking. Here, we aim to bridge this gap. We introduce a diagnostic taxonomy and a generative framework to enhance FEVER-style fact-checking. We establish a taxonomy of errors and we construct a diagnostic dataset that enables the analysis of the errors made by state-of-the-art models as well as their distribution within the FEVER dataset. Additionally, we provide a set of prompts to generate examples within this taxonomy. Our experiments demonstrate promising results through the utilization of these generated examples for fine-tuning.

    In bk.: Advances in Information Retrieval 47th European Conference on Information Retrieval, ECIR 2025, Lucca, Italy, April 6–10, 2025, Proceedings, Part I. Springer, 2025. P. 310-325.

  • Препринт

    Mirkin B., Parinov A., Halynchyk M. et al.

    Versions of least-squares k-means algorithm for interval data

    Математические методы анализа решений в экономике, бизнесе и политике. WP7. Издательский дом ВШЭ, 2024

Все публикации