为何decoder-only结构
总结:decoder-only在参数较少情况就能激发很强zero-shot能力,而且模型的上限更高,训练和推理都更有效率;在Incontext Learning情况下,few-shot能力更好
- decoder-only结构的attention矩阵倒三角形满秩矩阵,表达能力更强;encoder-decoder矩阵的attention矩阵容易泛化成低秩矩阵
- decoder-only pred-next-token 训练难度大,但泛化能力强,在数据足够多情况下,训练充分模型的上限能力更强;encoder-decoder 训练容易一些,但预测能力稍弱,上限能力被拉低
- 在icl过程中,prompt或者few-shot实际上等效隐式参数微调 ,decoder-only 对比encoder-decoder 更加直接在attention层进行微调,微调信号更强
- 推理效率问题,支持KVCache复用,推理效率更高,多轮对话效率更好
- zero-shot能力更强,更适合自监督语料库;encoder-decoder模型需要在一定量的标注数据finetune才能激发zero-shot能力
- 参数少一半,所需资源少一半,训练和推理效率更高
参考:https://blog.csdn.net/TFATS/article/details/133100383