摘要:        
1.在策略上,在均值为Mu, 标准差为std的标准正态化分布上进行采样, 使用action_bound来获得动作,使用log_prob获得该动作的概率值 dist = Normal(mu, std) normal_sample = dist.rsample() # 在标准化正态分布上采样 log_p    阅读全文
        posted @ 2022-09-12 22:33
python我的最爱
阅读(2448)
评论(1)
推荐(0)
            
        
        
摘要:        
1.DDPG是一个离线的策略方法 rl_utils.train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size) 2.DDPG是一个将状态states和actor的输出作为共同的输入    阅读全文
        posted @ 2022-09-12 16:02
python我的最爱
阅读(901)
评论(0)
推荐(0)
            
        
        
摘要:        
1.PPO是采用截断来对动作的输出进行约束,保证相同的状态下,同样的输出 ratio = torch.exp(log_probs - old_log_probs) surr1 = ratio * advantage surr2 = torch.clamp(ratio, 1 - self.eps, 1    阅读全文
        posted @ 2022-09-12 10:49
python我的最爱
阅读(1646)
评论(0)
推荐(0)
            
        
        
摘要:        
1.Actor-Critic既学习价值函数,也学习策略函数 2.价值函数用来评估当前的状态是好的,还是不好的,进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Cri    阅读全文
        posted @ 2022-09-12 09:49
python我的最爱
阅读(611)
评论(0)
推荐(0)
 
                    
                     
                    
                 
                    
                 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号