Описание научного проекта

В нашем проекте мы предлагаем разделять тексты фиксированного языка на написанные людьми и на сгенерированные ботами. Тестирование классификаторов происходит на текстах тех ботов, на которых он не обучался: на обучающую и тестовую выборки делится множество ботов, а не множество текстов.

Мы предполагаем, что для построения классификатора должны использоваться наиболее общие характеристики текстов в семантическом пространстве языка. Мы также считаем важным проверить корректность выдвинутых гипотез на нескольких языках, принадлежащих различным языковым группам и семьям.

Базовые гипотезы:

В семантическом пространстве n-грамм существуют области, “посещаемые” преимущественно людьми, и области, “посещаемые” преимущественно ботами.
При кластеризации множества n-грамм текстов, сгенерированных ботами, характеристики указанных кластеризаций статически значимо отличаются друг от друга.
При нечёткой кластеризации для текстов, написанных людьми, получаются более нечёткие кластера с менее ярко выраженным чётким ядром, чем для ботов.
Характеристики семантических траекторий текстов, написанных людьми, и текстов, сгенерированных ботами, отличаются статически значимо отличаются друг от друга.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа «Поймай бота»

Описание научного проекта