• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Описание научного проекта

В нашем проекте мы предлагаем разделять тексты фиксированного языка на  написанные людьми и  на сгенерированные ботами. Тестирование классификаторов происходит на текстах тех ботов, на которых он не обучался: на обучающую и тестовую выборки делится множество ботов, а не множество текстов.

Мы предполагаем, что для построения классификатора должны использоваться наиболее общие характеристики текстов в семантическом пространстве языка. Мы также считаем важным проверить корректность выдвинутых гипотез на нескольких языках, принадлежащих различным языковым группам и семьям. 


Базовые гипотезы:

  • В семантическом пространстве n-грамм существуют области, “посещаемые” преимущественно людьми, и области, “посещаемые” преимущественно ботами.
  • При кластеризации множества n-грамм текстов, сгенерированных ботами, характеристики указанных кластеризаций статически значимо отличаются друг от друга.
  • При нечёткой кластеризации  для текстов, написанных людьми, получаются более нечёткие кластера с менее ярко выраженным чётким ядром, чем для ботов.
  • Характеристики семантических траекторий текстов, написанных людьми, и текстов, сгенерированных ботами, отличаются статически значимо отличаются друг от друга.       

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.