为何decoder-only结构

为何decoder-only结构

总结:decoder-only在参数较少情况就能激发很强zero-shot能力,而且模型的上限更高,训练和推理都更有效率;在Incontext Learning情况下,few-shot能力更好
  • decoder-only结构的attention矩阵倒三角形满秩矩阵,表达能力更强;encoder-decoder矩阵的attention矩阵容易泛化成低秩矩阵
  • decoder-only pred-next-token 训练难度大,但泛化能力强,在数据足够多情况下,训练充分模型的上限能力更强;encoder-decoder 训练容易一些,但预测能力稍弱,上限能力被拉低
  • 在icl过程中,prompt或者few-shot实际上等效隐式参数微调 ,decoder-only 对比encoder-decoder 更加直接在attention层进行微调,微调信号更强
  • 推理效率问题,支持KVCache复用,推理效率更高,多轮对话效率更好
  • zero-shot能力更强,更适合自监督语料库;encoder-decoder模型需要在一定量的标注数据finetune才能激发zero-shot能力
  • 参数少一半,所需资源少一半,训练和推理效率更高

参考:https://blog.csdn.net/TFATS/article/details/133100383

posted @ 2024-07-31 20:29  adam86546853  阅读(128)  评论(0)    收藏  举报