Описание научного проекта
В нашем проекте мы предлагаем разделять тексты фиксированного языка на написанные людьми и на сгенерированные ботами. Тестирование классификаторов происходит на текстах тех ботов, на которых он не обучался: на обучающую и тестовую выборки делится множество ботов, а не множество текстов.
Мы предполагаем, что для построения классификатора должны использоваться наиболее общие характеристики текстов в семантическом пространстве языка. Мы также считаем важным проверить корректность выдвинутых гипотез на нескольких языках, принадлежащих различным языковым группам и семьям.
Базовые гипотезы:
- В семантическом пространстве n-грамм существуют области, “посещаемые” преимущественно людьми, и области, “посещаемые” преимущественно ботами.
- При кластеризации множества n-грамм текстов, сгенерированных ботами, характеристики указанных кластеризаций статически значимо отличаются друг от друга.
- При нечёткой кластеризации для текстов, написанных людьми, получаются более нечёткие кластера с менее ярко выраженным чётким ядром, чем для ботов.
- Характеристики семантических траекторий текстов, написанных людьми, и текстов, сгенерированных ботами, отличаются статически значимо отличаются друг от друга.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.