Центр искусственного интеллекта НИУ ВШЭ

Этика и доверенный ИИ

Этические аспекты внедрения ИИ

В 2021 году НИУ ВШЭ стал подписантом Кодекса этики в сфере ИИ. Его важнейшей особенностью является человеко-ориентированный и риск-ориентированный подходы к пониманию перспектив развития искусственного интеллекта. В 2024 году НИУ ВШЭ разработал и утвердил Декларацию этических принципов использования ИИ. Работы Центра ИИ также соответствуют принципам данной декларации, в частности, в том, что разработка и использование ИИ должны быть безопасными, то есть обеспечивать защиту персональных данных, способствовать предотвращению ошибок и минимизации рисков.

Центр ИИ следует этическим принципам при разработке и внедрении систем искусственного интеллекта:

Принцип безопасности

  • Защита персональных данных, предупреждение ошибок и минимизация рисков

Принцип прозрачности и справедливости

  • Обеспечение понятности алгоритмов и предсказуемости их решений

Принцип предотвращения дискриминации различных социальных групп

  • Периодическое обновление массивов данных для снижения риска предвзятости

Принцип контроля и подотчетности

  •  Мониторинг качества работы ИИ и выявление потенциальных проблем

Внедрение разрабатываемых решений на базе больших языковых моделей потенциально может привнести ряд рисков, которые следует своевременно предупреждать. С целью минимизации рисков в Центре ИИ выработан комплекс мер предупреждения и реагирования:

Риски

  • Риск неопределенности в связи с возможными ошибками ИИ
  • Риск потенциальной предвзятости оценок в силу смущенности обучающих наборов данных, либо данных используемых для аугментации БЯМ без ее адаптации (RAG-подход)

Решение

  • Обеспечение мониторинга качества работы ИИ-технологий, в т.ч. LLM, выявляющий возможные галлюцинации моделей и предупреждающий возникновение ошибок / утечек данных
  • Применение сформированного подхода к периодическому обновлению массивов текстовых данных для борьбы с потенциальной предвзятостью ИИ-инструментов в принятии решений

Обеспечение доверенного характера технологий ИИ

 

Исследования при разработке адаптированных отраслевых БЯМ будут направлены на обеспечение достоверности информации, генерируемой с их помощью, включая факт-чекинг и борьбу с галлюцинациями, в частности при работе с данными на русском языке.

Разработка решения будет включать в себя систему верификации результатов, а также создание бенчмарков в соответствии с международными стандартами. Оценка моделей будет осуществляться с использованием общепринятых метрик, что позволит отбирать модели, демонстрирующие наилучшие показатели. Метрики будут адаптированы для специфических задач и контекстов применения.

В Центре ИИ разрабатываются безопасные системы с искусственным интеллектом:

Программное решение для автоматического выявления и/или нейтрализации атак на данные, используемые в обучении ИИ-моделей (обнаружение аномалий, data poisoning, несбалансированных выборок, атак на распределение данных, выбросов, скрытых паттернов)

Наборы данных и выбор моделей ИИ для проведения испытаний и тестирования разработанной методологии

Программное обеспечение для защиты моделей ИИ разных классов, в том числе для защиты от атак класса «model stealing», и рекомендательная модель для устранения угроз

Мы стремимся создавать безопасный, прозрачный и ответственный искусственный интеллект, соответствующий высоким стандартам этики и ориентированный на повышение уровня доверия среди пользователей и общества в целом.