小样本学习在语言理解任务中的突破

小样本学习新方法

语音助手接收新指令时，首要任务是进行意图分类（如播放音乐、查询天气等）。随着新功能的开发，经常需要从少量样本（5-10个）中学习新意图分类。这种小样本学习场景下，研究团队提出结合原型网络（ProtoNets）与神经数据增强的创新方法。

技术架构

原型网络
- 通过元学习训练输入嵌入表示，最大化类间距离/最小化类内距离
- 每个批次可包含任意数量类别和样本，训练灵活性高
- 小样本学习时，将新类别样本嵌入后取均值生成原型向量
神经数据增强
- 生成器基于真实样本产生合成样本（模型命名为ProtoDA）
- 与原型网络共享损失函数，确保生成样本优化类间分离度
- 实验显示在128维原型空间增强效果优于768维语义嵌入空间

实验结果

基础ProtoNet在5样本/10样本场景下F1分数分别比基线高1%和5%
加入神经数据增强后：
- 相比噪声增强方法减少8.4%（5样本）和12.4%（10样本）F1错误
- 最佳性能出现在生成器位于ProtoNet与分类层之间时

该方法已应用于某智能语音系统的自然理解模块，相关论文发表于SLT 2021会议。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-08-06 19:16 CodeShare 阅读(10) 评论(0) 收藏举报

刷新页面返回顶部