为何decoder-only结构

总结：decoder-only在参数较少情况就能激发很强zero-shot能力，而且模型的上限更高，训练和推理都更有效率；在Incontext Learning情况下，few-shot能力更好

decoder-only结构的attention矩阵倒三角形满秩矩阵，表达能力更强；encoder-decoder矩阵的attention矩阵容易泛化成低秩矩阵
decoder-only pred-next-token 训练难度大，但泛化能力强，在数据足够多情况下，训练充分模型的上限能力更强；encoder-decoder 训练容易一些，但预测能力稍弱，上限能力被拉低
在icl过程中，prompt或者few-shot实际上等效隐式参数微调 ,decoder-only 对比encoder-decoder 更加直接在attention层进行微调，微调信号更强
推理效率问题，支持KVCache复用，推理效率更高，多轮对话效率更好
zero-shot能力更强，更适合自监督语料库；encoder-decoder模型需要在一定量的标注数据finetune才能激发zero-shot能力
参数少一半，所需资源少一半，训练和推理效率更高

posted @ 2024-07-31 20:29 adam86546853 阅读(128) 评论(0) 收藏举报

刷新页面返回顶部