Экспериментальные методы оценки качества продукции систем искусственного интеллекта
Субъективные суждения человека о текстах, порожденных на естественном языке системами искусственного интеллекта, до сих пор являются одним из основных способов оценки качества таких текстов и их близости к порождаемым человеком текстам. Именно они, в частности, лежат в основе различных вариантов теста Тюринга, когда оценка «речепродукции» искусственного агента осуществляется человеком и/или в сравнении с речепродукцией человека. Такого рода подход, однако, страдает от ряда существенных недостатков: он субъективен, нестандартизирован, затратен по времени и результирует в бинарном (человек/искусственный агент) решении. Для объективизации и оптимизации оценки качества текстов, порожденных системами искусственного интеллекта, человеком предлагается воспользоваться достижениями экспериментальных социальных наук, которые используют для аналогичных задач непосредственные метрики человеческого поведения, психо- и нейрофизиологии. В частности, будут сравниваться параметры движений глаз человека во время чтения текстов, порожденных людьми и различными искусственными агентами – для выявления метрик, позволяющих дискриминировать тексты, созданные человеком и системами искусственного интеллекта, а также ранжировать последние по степень приближенности к естественным текстам. Этот подход является абсолютно новым в области оценки систем искусственного интеллекта.
Проект реализуется совместно со Сбером.
Команда проекта
Руководитель проекта
Младший научный сотрудник