摘要:        
dqn\ppo\grpo区别 GPT-5 非常好的问题 👍 —你提到的 DQN、PPO 和 GRPO(在强化学习中都非常核心)其实代表了强化学习技术的三个不同“进化阶段”。它们的区别主要体现在:是否使用值函数/策略函数、是否连续动作空间、是否稳定更新、以及是否用在大语言模型(LLM)中。 下面我们    阅读全文
posted @ 2025-10-28 17:47
bonelee
阅读(4)
评论(0)
推荐(0)
        
            
        
        
摘要:        
设定qkv三个权重矩阵 这个是啥?设定??? GPT-5 非常棒的追问!👏 你问得特别关键 —— “设定三个权重矩阵” 其实是注意力机制中最核心的 可学习参数 部分。我来帮你把这个点彻底讲清楚。 💡 一、这三个权重矩阵是“学出来的”,不是随意“设定”的 当我在例子里写: WQ, WK, WVWQ    阅读全文
posted @ 2025-10-28 09:56
bonelee
阅读(9)
评论(0)
推荐(0)
        
            
        
        
摘要:        
MHA、MQA、GQA 有什么区别 举例说明下呢 GPT-5 这个问题问得非常好 👍 ——这三个概念(MHA、MQA、GQA)都出自 Transformer 的注意力机制(Attention)家族,它们的名称非常相似,但设计思路与用途略有不同。下面我详细解释一下它们之间的区别与联系,并辅以例子帮助    阅读全文
posted @ 2025-10-28 09:26
bonelee
阅读(23)
评论(0)
推荐(0)
        
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号