利用众包平台对复杂用户特征进行分类的技术
项目的相关性
目前基于社交媒体预测用户复杂特质(政治信仰、社会态度、心理特征)的模型都是基于对标记数据的分析,假定文本(或其他内容)的作者是特质的主要携带者/非携带者。然而,数据的特殊性会大大降低由此产生的社交媒体分析模型的质量。解决这一问题的办法是开发一种技术,对训练社交媒体文本分析算法所需的数据进行可靠的标记。 本项目建议开发的技术是一种生成可靠标记数据集的技术,以便进一步用于文本分析算法的培训。
项目任务:
-
Step 1: 制定生成可靠数据集的技术和方法原则
-
Step 2: 制定要使用的测量工具的要求、能力和局限性。
这对于评估复杂特征和生成符合所制定原则的数据集来说是必要的。
-
Step 3: 创建评估数据质量的算法。
利用众包平台收集数据(确保剔除恶意执行拟议任务的受访者)。
计划成果:
- 为预测社交媒体上的复杂特征而生成稳健的标记数据集的方法和技术;
- 利用众包平台评估方法中收集的数据质量的算法;
- 用于预测复杂性状的可靠标记数据集。