2025 年 10月 28 日随笔档案 - bonelee

2025年10月28日

摘要： dqn\ppo\grpo区别 GPT-5 非常好的问题 👍 —你提到的 DQN、PPO 和 GRPO（在强化学习中都非常核心）其实代表了强化学习技术的三个不同“进化阶段”。它们的区别主要体现在：是否使用值函数/策略函数、是否连续动作空间、是否稳定更新、以及是否用在大语言模型（LLM）中。下面我们阅读全文

posted @ 2025-10-28 17:47 bonelee 阅读(4) 评论(0) 推荐(0)

注意力机制里的qkv

摘要：设定qkv三个权重矩阵这个是啥？设定？？？ GPT-5 非常棒的追问！👏 你问得特别关键 —— “设定三个权重矩阵” 其实是注意力机制中最核心的可学习参数部分。我来帮你把这个点彻底讲清楚。 💡 一、这三个权重矩阵是“学出来的”，不是随意“设定”的当我在例子里写： WQ, WK, WVWQ 阅读全文

posted @ 2025-10-28 09:56 bonelee 阅读(9) 评论(0) 推荐(0)

MHA、MQA、GQA 有什么区别？GQA是性能优化和性能之间的折中方案

摘要： MHA、MQA、GQA 有什么区别举例说明下呢 GPT-5 这个问题问得非常好 👍 ——这三个概念（MHA、MQA、GQA）都出自 Transformer 的注意力机制（Attention）家族，它们的名称非常相似，但设计思路与用途略有不同。下面我详细解释一下它们之间的区别与联系，并辅以例子帮助阅读全文

posted @ 2025-10-28 09:26 bonelee 阅读(23) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告