2022 年 9月 12 日随笔档案 - python我的最爱

2022年9月12日

摘要： 1.在策略上，在均值为Mu, 标准差为std的标准正态化分布上进行采样, 使用action_bound来获得动作，使用log_prob获得该动作的概率值 dist = Normal(mu, std) normal_sample = dist.rsample() # 在标准化正态分布上采样 log_p 阅读全文

posted @ 2022-09-12 22:33 python我的最爱阅读(2474) 评论(1) 推荐(0)

强化学习-DDPG

摘要： 1.DDPG是一个离线的策略方法 rl_utils.train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size) 2.DDPG是一个将状态states和actor的输出作为共同的输入阅读全文

posted @ 2022-09-12 16:02 python我的最爱阅读(904) 评论(0) 推荐(0)

强化学习-PPO

摘要： 1.PPO是采用截断来对动作的输出进行约束，保证相同的状态下，同样的输出 ratio = torch.exp(log_probs - old_log_probs) surr1 = ratio * advantage surr2 = torch.clamp(ratio, 1 - self.eps, 1 阅读全文

posted @ 2022-09-12 10:49 python我的最爱阅读(1669) 评论(0) 推荐(0)

强化学习-Actor-Critic(演员和评论家)

摘要： 1.Actor-Critic既学习价值函数，也学习策略函数 2.价值函数用来评估当前的状态是好的，还是不好的，进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Cri 阅读全文

posted @ 2022-09-12 09:49 python我的最爱阅读(629) 评论(0) 推荐(0)