对于transformer的理解学习day1

Transformer就是用attention做动态路由信息的序列建模。它靠Q/k/v建立关联,靠position embedding补充顺序信息,靠多头增强表达能力。

  • 核心机制是自注意力机制,即每个token先映射为三组向量:Q,K,V,Q代表我想要什么信息,K代表我能提供什么信息,V代表具体内容,当前的token会用自己的Q去和所有token的k算相似度,得到一个注意力分数矩阵,用softmax进行归一化后与自己的value进行加权求和,得到新的token表示
  • 多头注意力机制,就是让模型从多个不同的视角看关系,比如不同的head可以关注不同的信息:比如语义关联,指代关系,句法结构等,最后把多个head拼接起来使得表达能力更强。
  • 位置编码:因为attention本身不带顺序,所以需要position encoding进行位置表示,告诉谁在前谁在后。
  • 结构上分为encoder-only适合理解,decoder-only用于生成,encoder-decoder适用于输入到输出的变换任务。

对于agent而言,transformer在我看来,价值不仅仅体现在文本生成,而是提供一种强的上下文建模能力,agent的规划,工具调用,对话状态位置,从检索结果抽取关键信息本质都依赖模型在长上下文做相关性判断和条件生成。

自己总结:transformer核心包括attention,位置编码,多头注意力
输入内容先转化为词元,转为嵌入向量,常见为512维或768,由于注意力机制不考虑顺序,所以需要进行位置编码,位置编码和嵌入向量结合形成token表示,送入自注意力机制,自注意力机制先将token映射为三组向量Q,K,V,Q表示你想要什么,K表示你能提供什么,v表示具体的内容,然后当前token的q会与所有token的K算相似度,得到一个注意力分数矩阵,通过softmax进行归一化再与自己的value进行加权求和得到新的token表示。这是单头注意力,还有多头注意力机制,就是能从不同的角度看关系,先把token的向量维度映射到更高维进行切割,分别生成不同的QKV,通过缩放点积注意力生成不同的头代表不同方面的语义相似性,最后拼接形成新的注意力层

posted @ 2026-03-26 21:45  超级码农n号  阅读(1)  评论(0)    收藏  举报