小样本学习在语言理解任务中的突破

小样本学习新方法

语音助手接收新指令时,首要任务是进行意图分类(如播放音乐、查询天气等)。随着新功能的开发,经常需要从少量样本(5-10个)中学习新意图分类。这种小样本学习场景下,研究团队提出结合原型网络(ProtoNets)与神经数据增强的创新方法。

技术架构

  1. 原型网络

    • 通过元学习训练输入嵌入表示,最大化类间距离/最小化类内距离
    • 每个批次可包含任意数量类别和样本,训练灵活性高
    • 小样本学习时,将新类别样本嵌入后取均值生成原型向量
  2. 神经数据增强

    • 生成器基于真实样本产生合成样本(模型命名为ProtoDA)
    • 与原型网络共享损失函数,确保生成样本优化类间分离度
    • 实验显示在128维原型空间增强效果优于768维语义嵌入空间

实验结果

  • 基础ProtoNet在5样本/10样本场景下F1分数分别比基线高1%和5%
  • 加入神经数据增强后:
    • 相比噪声增强方法减少8.4%(5样本)和12.4%(10样本)F1错误
    • 最佳性能出现在生成器位于ProtoNet与分类层之间时

该方法已应用于某智能语音系统的自然理解模块,相关论文发表于SLT 2021会议。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

posted @ 2025-08-06 19:16  CodeShare  阅读(1)  评论(0)    收藏  举报