Этика и доверенный ИИ
Этические аспекты внедрения ИИ
В 2021 году НИУ ВШЭ стал подписантом Кодекса этики в сфере ИИ. Его важнейшей особенностью является человеко-ориентированный и риск-ориентированный подходы к пониманию перспектив развития искусственного интеллекта. В 2024 году НИУ ВШЭ разработал и утвердил Декларацию этических принципов использования ИИ. Работы Центра ИИ также соответствуют принципам данной декларации, в частности, в том, что разработка и использование ИИ должны быть безопасными, то есть обеспечивать защиту персональных данных, способствовать предотвращению ошибок и минимизации рисков.
Центр ИИ следует этическим принципам при разработке и внедрении систем искусственного интеллекта:
Принцип безопасности
- Защита персональных данных, предупреждение ошибок и минимизация рисков
Принцип прозрачности и справедливости
- Обеспечение понятности алгоритмов и предсказуемости их решений
Принцип предотвращения дискриминации различных социальных групп
- Периодическое обновление массивов данных для снижения риска предвзятости
Принцип контроля и подотчетности
- Мониторинг качества работы ИИ и выявление потенциальных проблем
Внедрение разрабатываемых решений на базе больших языковых моделей потенциально может привнести ряд рисков, которые следует своевременно предупреждать. С целью минимизации рисков в Центре ИИ выработан комплекс мер предупреждения и реагирования:
Риски
- Риск неопределенности в связи с возможными ошибками ИИ
- Риск потенциальной предвзятости оценок в силу смущенности обучающих наборов данных, либо данных используемых для аугментации БЯМ без ее адаптации (RAG-подход)
Решение
- Обеспечение мониторинга качества работы ИИ-технологий, в т.ч. LLM, выявляющий возможные галлюцинации моделей и предупреждающий возникновение ошибок / утечек данных
- Применение сформированного подхода к периодическому обновлению массивов текстовых данных для борьбы с потенциальной предвзятостью ИИ-инструментов в принятии решений
Обеспечение доверенного характера технологий ИИ
Исследования при разработке адаптированных отраслевых БЯМ будут направлены на обеспечение достоверности информации, генерируемой с их помощью, включая факт-чекинг и борьбу с галлюцинациями, в частности при работе с данными на русском языке.
Разработка решения будет включать в себя систему верификации результатов, а также создание бенчмарков в соответствии с международными стандартами. Оценка моделей будет осуществляться с использованием общепринятых метрик, что позволит отбирать модели, демонстрирующие наилучшие показатели. Метрики будут адаптированы для специфических задач и контекстов применения.
В Центре ИИ разрабатываются безопасные системы с искусственным интеллектом:
Программное решение для автоматического выявления и/или нейтрализации атак на данные, используемые в обучении ИИ-моделей (обнаружение аномалий, data poisoning, несбалансированных выборок, атак на распределение данных, выбросов, скрытых паттернов)
Наборы данных и выбор моделей ИИ для проведения испытаний и тестирования разработанной методологии
Программное обеспечение для защиты моделей ИИ разных классов, в том числе для защиты от атак класса «model stealing», и рекомендательная модель для устранения угроз
Мы стремимся создавать безопасный, прозрачный и ответственный искусственный интеллект, соответствующий высоким стандартам этики и ориентированный на повышение уровня доверия среди пользователей и общества в целом.