Decoder-Only Transformer

https://zhuanlan.zhihu.com/p/1918721629439108231

Self-Attention自注意力机制 核心思想:让模型在处理每个位置的输入时,都可以关注序列中所有位置的信息,并为不同位置分配不同的“注意力”权重。

步骤:
1.输入映射成query,key和value向量(Q K V);
2.计算注意力分数;
3.推导计算输出

Multi-Head Attention:单一注意力头的表示能力有限,Transformer通过并行化的多头注意力来增强模型的表达力。多头机制能够让模型在不同的子空间捕获多样化的依赖关系,使学习更为灵活和全面。

Decoder-Only Transformer和标准Transformer的区别:
仅解码器(例如GPT、deepseek)都是单向注意力,生成时只看左侧内容,模型看不到未来,只能从左到右处理这段文本,纯靠已看到的左侧内容逐词预测,主观性比较强,具有流畅性和创意性。
标准的transformer在编码器阶段生成了一个全局理解的信息,解码器阶段会严格参考编码器的全局信息,从左到右生成信息。类似于翻译,具有强约束性,不能自由发挥。

posted @ 2025-07-25 09:46  用户snkslakdf  阅读(37)  评论(0)    收藏  举报