Детекция ботов — актуальная проблема, так как современные модели способны быстро генерировать текст, похожий на написанный человеком. Вследствие этого, боты могут вводить в заблуждение («фейковые» новости, фальшивые комментарии в социальных сетях) и вредить развитию языковой личности.
Существующие методы идентификации текстов, сгенерированных ботами, нацелены на работу с одним фиксированным ботом, однако тот факт, что та или иная модель может хорошо выделять тексты одного боты не значит, что эта модель сможет выделять тексты других. В настоящем исследовании мы разделяем все множество текстов естественного языка на тексты, написанные людьми, и на тексты, сгенерированные ботами, делая возможным детекцию многих ботов.
Задачи:
- Сбор и обработка первичной языковой информации в как можно более широком кругу языков.
- Обработка указанной языковой информации с целью получения векторных представления всех слов в языке.
- Исследования семантических траекторий текстов, проверка статистических гипотез, позволяющих отличить тексты, сгенерированные ботами, от текстов, написанных людьми.
- Создание прототипа программы, позволяющих отличать тексты ботов от текстов людей в широком круге ботов для различных языков
Новости
Был представлен доклад "Поймай бота: Пустоты семантических пространств естественных языков" (Автор: Сериков Артём Игоревич)
Был представлен доклад Методы анализа семантических траекторий литературных произведений (Автор: Чертоганов Кирилл Аркадьевич)
Был представлен доклад Поймай бота: скрытые размерности аттракторов семантических траекторий (Автор: Бородин Никита Сергеевич)
Были представлены доклады Поймай бота: структура семантических пространств естественных языков (Автор: Данг Куинь Ньы) и Поймай бота: широкомасштабная структура семантических пространств текстов естественных языков (Автор: Коган Александра Сергеевна)
Был представлен доклад Comparative study of natural languages as self-organised critical systems (Автор: Ерболова Асель)