摘要:
那为啥transformer里的位置编码做不到呢 反正公式得不到最后精髓那样的东西。还得模型自己去学。 注意力分数自然依赖于角度差(对应相对位置)。它不需要 learn bias,也不依靠序号嵌入。 五、通俗比喻 🌈 传统位置编码就像在每个单词上贴一个标签「我是第几位」;但模型要靠自己猜出“第2位 阅读全文
posted @ 2025-10-22 19:14
bonelee
阅读(0)
评论(0)
推荐(0)
摘要:
如何通俗理解RoPE 最好有一个向量化的例子 非常棒的问题 👍!你要的是对 RoPE(Rotary Position Embedding) 的直觉 + 向量化例子,也就是想清楚 到底“旋转”在干什么、向量到底怎么动 ——那我就用一个动脑可视化的向量故事给你解释清楚。 🧭 一、RoPE 要解决什么 阅读全文
posted @ 2025-10-22 19:14
bonelee
阅读(0)
评论(0)
推荐(0)
摘要:
LLaMA系列模型:发展脉络 回顾梳理下技术演进呢 GPT-5 当然可以。这是一个非常有意思的话题。LLaMA(Large Language Model Meta AI)系列是 Meta(原Facebook) 在开放大模型生态中非常关键的一条技术路线,它的演进体现了从研究导向的开放模型逐步走向具备商 阅读全文
posted @ 2025-10-22 15:41
bonelee
阅读(0)
评论(0)
推荐(0)
摘要:
多模型 VL模型 比文本类模型有什么差异 从模型结构上看的话 GPT-5 非常好的问题。你提到的“多模态(VL, Vision-Language)模型”与“纯文本类模型”(如 GPT、BERT 这类语言模型)之间,在结构设计上有许多关键性的差异。下面我从模型结构、输入处理、特征融合和训练目标等几个方 阅读全文
posted @ 2025-10-22 15:04
bonelee
阅读(0)
评论(0)
推荐(0)

浙公网安备 33010602011771号