小样本学习在语言理解任务中的突破
小样本学习新方法
语音助手接收新指令时,首要任务是进行意图分类(如播放音乐、查询天气等)。随着新功能的开发,经常需要从少量样本(5-10个)中学习新意图分类。这种小样本学习场景下,研究团队提出结合原型网络(ProtoNets)与神经数据增强的创新方法。
技术架构
-
原型网络
- 通过元学习训练输入嵌入表示,最大化类间距离/最小化类内距离
- 每个批次可包含任意数量类别和样本,训练灵活性高
- 小样本学习时,将新类别样本嵌入后取均值生成原型向量
-
神经数据增强
- 生成器基于真实样本产生合成样本(模型命名为ProtoDA)
- 与原型网络共享损失函数,确保生成样本优化类间分离度
- 实验显示在128维原型空间增强效果优于768维语义嵌入空间
实验结果
- 基础ProtoNet在5样本/10样本场景下F1分数分别比基线高1%和5%
- 加入神经数据增强后:
- 相比噪声增强方法减少8.4%(5样本)和12.4%(10样本)F1错误
- 最佳性能出现在生成器位于ProtoNet与分类层之间时
该方法已应用于某智能语音系统的自然理解模块,相关论文发表于SLT 2021会议。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码


浙公网安备 33010602011771号