200亿参数模型革新小样本学习技术
模型架构创新
采用编码器-解码器架构(encoder-decoder)的Alexa教师模型在少样本学习任务中显著优于仅使用解码器的其他大型语言模型。该模型在摘要生成和机器翻译等任务中展现出色性能。
技术突破
该20B参数生成模型名为AlexaTM 20B,其独特之处在于:
- 支持阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语等12种语言
- 训练碳足迹仅为GPT-3的五分之一
- 采用去噪和因果语言建模(CLM)混合训练方式
训练方法论
模型训练打破传统,采用80%去噪任务和20%因果语言建模任务的混合预训练策略:
- 去噪任务要求模型找回丢失的文本片段并生成完整版本
- CLM任务要求模型有意义地续写输入文本
- 这种混合训练使模型既能生成新文本,又擅长序列到序列任务
性能表现
在Flores-101数据集上,该模型在几乎所有支持的语言对中都实现了最先进的少样本机器翻译性能。特别是在马拉地语、泰米尔语和泰卢固语等低资源语言的翻译中取得显著提升(例如阿拉伯语到泰米尔语的BLEU得分达到21.8,而监督式模型仅为0.9)。
应用与警示
该模型支持在有限GPU内存的八块GPU上进行推理,为研究人员提供更灵活的使用方式。但需注意:
- 模型可能重现训练数据中的有害语言、社会偏见和刻板印象
- 建议在使用前进行特定任务的公平性和偏见分析
- 需要根据下游应用采用去毒和去偏见技术
技术意义
这项研究证明了所提出的预训练方法使序列到序列模型在少样本学习和微调设置中都能超越更大的仅解码器模型,为大型语言模型训练提供了强有力的替代方案。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号