根据语言理论创建神经网络模型和数据集
项目相关性
建立预先训练好的语言模型参数并不能推进我们的自然语言理解任务,因为这种语言模型是通过操作词形来替代理解的。语言模型和语言系统之间的差距如下:语言系统由词形和词义之间的关系构成。而语言模型使用的训练数据只有形式,没有意义。
项目目标
是创建具有专家语言标记的训练数据集,重点关注现代语言模型最棘手的领域:话语内聚力、言语行为类型的差异、提供具有共同语义的语言表达变化的深层句法结构。
建议解决方案的优势
-
可将语言信息纳入当前的神经网络架构
正在开发的数据集将包含语言信息,这些信息定义了交际情境、叙事结构、语言变异的重要组成部分--这些信息对人类来说显而易见,但迄今为止实际上无法在人工建模层面上再现。
-
自动自然语言处理领域的新基础和应用成果
获得的神经网络模型可用于改进会话和生成式聊天机器人,自动分析复杂的叙事结构,搜索意译和句法同义词。
项目成果的意义:
- 语言科学与自动自然语言分析的融合,最近在语言学界和 NLP 界最为活跃。
- 在自然语言领域出现了缩小人工智能和自然智能差距的下一代解决方案。