О Центре

Входит в структуру Факультета компьютерных наук НИУ ВШЭ и создан для решения задач обработки естественных языков и создания семантических технологий, опирающихся как на методы интерпретируемого искусственного интеллекта, так и на современные модели машинного обучения.

Основными задачами Центра являются:


1

Разработка и развитие интерпретируемых методов машинного обучения и майнинга данных для задач ОЕЯ (NLP) и рекомендательных системы


2

Разработка моделей, позволяющих обогатить функциональность существующих больших языковых моделей за счет привлечения дополнительных ресурсов: лингвистических моделей, моделей знания, поисковых моделей, алгоритмов планирования

 


3

Разработка моделей и методов автоматического приобретения знаний с помощью больших языковых моделей (БЯМ), в том числе методов переноса обучения между разными языками и разными задачами

 


4

Разработка моделей и методов исследования, моделирования и анализа в рамках теории сложных систем

 


5

Разработка инструментов семантического анализа на основе математических методов в теории формальных понятий

 

Структура

Международная лаборатория интеллектуальных систем и структурного анализа

Проводим исследования, позволяющие объединять структурные и нейросетевые представления в задачах прикладного анализа данных

Научно-учебная лаборатория моделей и методов вычислительной прагматики

Мы занимаемся задачами обработки естественного языка (nlp), интерпретируемым машинным обучением и майнингом данных, разработкой рекомендательных систем и сервисов и развиваем методы мультимодальной кластеризации и классификации, позволяющие формировать профиль интересов пользователя с учетом различных модальностей

Научно-учебная лаборатория моделирования и управления сложными системами

Мы занимаемся фундаментальными и прикладными исследованиями по математическому моделированию сложных систем, изучением феноменов синхронизации, внезапных изменений режимов, квази-регулярностей, самоорганизации, оценке эффективности алгоритмов прогнозов редких событий и управлению сложными системами

Лаборатория анализа семантики

Мы занимаемся исследованием естественного языка как единого целого в рамках естественно-научной парадигмы с помощью методов компьютерных наук и прикладной математики

Руководство

Кузнецов Сергей Олегович

Руководитель центра, доктор математических наук, профессор

Желязкова Марина Геннадьевна

Заместитель руководителя Центра, кандидат юридических наук

Публикации

  • Базовые методы анализа данных : учебник и практикум для вузов

    Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.

    М.: Юрайт, 2024.

  • Outliers resistant image classification by anomaly detection

    Различные технологии, включая модели компьютерного зрения, применяются для автоматизированного контроля процессов ручной сборки на производстве. Эти модели позволяют обнаруживать и классифицировать события, такие как наличие компонентов в области сборки или их соединение. Основной проблемой алгоритмов детекции и классификации является их чувствительность к изменениям условий окружающей среды и непредсказуемое поведение при обработке объектов, отсутствующих в обучающей выборке. Поскольку включение всех возможных объектов в обучающую выборку является непрактичным, требуется альтернативное решение. В данном исследовании предлагается модель, одновременно выполняющая задачи классификации и детекции аномалий. Модель использует метод metric learning для построения векторных представлений изображений в многомерном пространстве с последующей классификацией с помощью функции перекрестной энтропии. Для проведения экспериментов был подготовлен набор данных, включающий более 327 000 изображений. Эксперименты проводились с различными архитектурами моделей компьютерного зрения, и результаты каждого подхода были сравнены.

    ADVANCES IN ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING. 2025. No. 1. P. 3344-3355.

  • Глава в книге

    Chernyavskiy A., Ilvovsky D., Nakov P.

    Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia: A Diagnostic Taxonomy and a Generative Framework

    Fact-checking is a crucial yet challenging task that continues to gain importance. In an effort to address this issue, the FEVER large-scale dataset was developed to facilitate evidence-based fact-checking using Wikipedia as a reference. Despite numerous proposed approaches and evaluations on this dataset, a comprehensive understanding of the errors made by these approaches is still lacking. Here, we aim to bridge this gap. We introduce a diagnostic taxonomy and a generative framework to enhance FEVER-style fact-checking. We establish a taxonomy of errors and we construct a diagnostic dataset that enables the analysis of the errors made by state-of-the-art models as well as their distribution within the FEVER dataset. Additionally, we provide a set of prompts to generate examples within this taxonomy. Our experiments demonstrate promising results through the utilization of these generated examples for fine-tuning.

    In bk.: Advances in Information Retrieval 47th European Conference on Information Retrieval, ECIR 2025, Lucca, Italy, April 6–10, 2025, Proceedings, Part I. Springer, 2025. P. 310-325.

  • Препринт

    Mirkin B., Parinov A., Halynchyk M. et al.

    Versions of least-squares k-means algorithm for interval data

    Математические методы анализа решений в экономике, бизнесе и политике. WP7. Издательский дом ВШЭ, 2024

Все публикации