Центр искусственного интеллекта НИУ ВШЭ

Технология категоризации сложных черт пользователей на основе анализа данных социальных медиа с использованием краудсорсинговых платформ

Современные модели предсказания сложных черт (политических убеждений, социальных установок, психологических особенностей) пользователей на основании социальных медиа основываются на анализе размеченных данных, предполагающих первичную маркировку автора текста (или другого контента) как носителя/неносителя черты. Однако специфика данных может существенно снижать качество получаемых моделей анализа социальных медиа. Решением этой проблемы является формирование технологии надежной разметки данных, необходимых для обучения алгоритмов анализа текстов социальных медиа. Повышение надежности разметки данных может быть обеспечено внедрением измерительного инструментария социальных наук, позволяющего с достаточно высокой точностью определять выраженность сложной черты у пользователя социальных медиа. Условием точности модели является использование валидируемого надежного психометрического инструмента измерения черт личностного профиля. Таким образом, предлагаемая для разработки в проекте технология является технологией генерации надежного размеченного набора данных для дальнейшего использования в рамках обучения алгоритмов анализа текстов.

В рамках проекта разрабатываются технологические и методические принципы формирования надежных наборов данных; формулируются требования к используемым измерительным инструментам для оценки сложных черт, возможности и ограничения использования краудсорсинговых платформ для генерации наборов данных, соответствующих разработанным принципам; разрабатывается алгоритм оценки качества данных, собранных с использованием краудсорсинговых платформ (обеспечивающий отсев респондентов, выполнявших предложенных задания недобросовестно). Результатом выполнения проекта станут:

1) методология и технология генерации надежных размеченных наборов данных для предсказания сложных черт по социальным медиа;

2) алгоритм оценки качества данных, собранных в рамках методологии с использованием краудсорсинговых платформ;

3) надежные наборы данных для предсказания сложных черт.

Проект реализуется совместно с Яндексом.

Команда проекта

Чумакова Мария Алексеевна

Руководитель проекта

Александрова Марина Юрьевна

Стажер-исследователь

Кузьмина Алиса Андреевна

Стажер-исследователь

Лебедев Даниил Владимирович

Стажер-исследователь

Сучкова Екатерина Алексеевна

Стажер-исследователь