Технология категоризации контента на основе анализа данных социальных медиа и социально-психологических данных с использованием краудсорсинговых платформ

Актуальность проекта

Современные модели предсказания сложных черт (политических убеждений, социальных установок, психологических особенностей) пользователей на основании социальных медиа основываются на анализе размеченных данных, предполагающих первичную маркировку автора текста (или другого контента) как носителя/неносителя черты. Однако специфика данных может существенно снижать качество получаемых моделей анализа социальных медиа. Решением этой проблемы является формирование технологии надежной разметки данных, необходимых для обучения алгоритмов анализа текстов социальных медиа.

Предлагаемая для разработки в проекте технология является технологией генерации надежного размеченного набора данных для дальнейшего использования в рамках обучения алгоритмов анализа текстов.

Задачи проекта:

Разработать технологические и методические принципы формирования надежных наборов данных
Сформулировать требования, возможности и ограничения к используемым измерительным инструментам

Это необходимо для оценки сложных черт и генерации наборов данных, соответствующих разработанным принципам.
Создать алгоритм оценки качества данных

Данные собираются с использованием краудсорсинговых платформ (обеспечивающих отсев респондентов, выполнявших предложенных задания недобросовестно).

Планируемые результаты:

Методология и технология генерации надежных размеченных наборов данных для предсказания сложных черт по социальным медиа;

Алгоритм оценки качества данных, собранных в рамках методологии с использованием краудсорсинговых платформ;

Надежные наборы данных для предсказания сложных черт.

Проект реализуется совместно с партнером

Яндекс

Команда проекта

Чумакова Мария Алексеевна

Руководитель проекта

Вечерин Александр Викторович

Научный работник

Стукал Денис Константинович

Научный работник

Красовицкая Алиса Андреевна

Стажер-исследователь