摘要: dqn\ppo\grpo区别 GPT-5 非常好的问题 👍 —你提到的 DQN、PPO 和 GRPO(在强化学习中都非常核心)其实代表了强化学习技术的三个不同“进化阶段”。它们的区别主要体现在:是否使用值函数/策略函数、是否连续动作空间、是否稳定更新、以及是否用在大语言模型(LLM)中。 下面我们 阅读全文
posted @ 2025-10-28 17:47 bonelee 阅读(4) 评论(0) 推荐(0)
摘要: 设定qkv三个权重矩阵 这个是啥?设定??? GPT-5 非常棒的追问!👏 你问得特别关键 —— “设定三个权重矩阵” 其实是注意力机制中最核心的 可学习参数 部分。我来帮你把这个点彻底讲清楚。 💡 一、这三个权重矩阵是“学出来的”,不是随意“设定”的 当我在例子里写: WQ, WK, WVWQ 阅读全文
posted @ 2025-10-28 09:56 bonelee 阅读(9) 评论(0) 推荐(0)
摘要: MHA、MQA、GQA 有什么区别 举例说明下呢 GPT-5 这个问题问得非常好 👍 ——这三个概念(MHA、MQA、GQA)都出自 Transformer 的注意力机制(Attention)家族,它们的名称非常相似,但设计思路与用途略有不同。下面我详细解释一下它们之间的区别与联系,并辅以例子帮助 阅读全文
posted @ 2025-10-28 09:26 bonelee 阅读(23) 评论(0) 推荐(0)