Центр искусственного интеллекта НИУ ВШЭ

Экспериментальные методы оценки качества продукции систем искусственного интеллекта

Субъективные суждения человека о текстах, порожденных на естественном языке системами искусственного интеллекта, до сих пор являются одним из основных способов оценки качества таких текстов и их близости к порождаемым человеком текстам. Именно они, в частности, лежат в основе различных вариантов теста Тюринга, когда оценка «речепродукции» искусственного агента осуществляется человеком и/или в сравнении с речепродукцией человека. Такого рода подход, однако, страдает от ряда существенных недостатков: он субъективен, нестандартизирован, затратен по времени и результирует в бинарном (человек/искусственный агент) решении. Для объективизации и оптимизации оценки качества текстов, порожденных системами искусственного интеллекта, человеком предлагается воспользоваться достижениями экспериментальных социальных наук, которые используют для аналогичных задач непосредственные метрики человеческого поведения, психо- и нейрофизиологии. В частности, будут сравниваться параметры движений глаз человека во время чтения текстов, порожденных людьми и различными искусственными агентами – для выявления метрик, позволяющих дискриминировать тексты, созданные человеком и системами искусственного интеллекта, а также ранжировать последние по степень приближенности к естественным текстам. Этот подход является абсолютно новым в области оценки систем искусственного интеллекта.

Проект реализуется совместно со Сбером.

Команда проекта

Драгой Ольга Викторовна

Руководитель проекта

Лоншаков Георгий Геннадьевич

Стажер-исследователь

Шаврина Татьяна Олеговна

Научный работник

Шалилех Соруш Ахмад

Стажер-исследователь