强化学习之图解SAC算法

SAC算法简介

转自：https://zhuanlan.zhihu.com/p/385658411

柔性动作-评价（Soft Actor-Critic，SAC）算法的网络结构有5个。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是 off-policy 的强化学习算法（关于on-policy和off-policy的讨论可见：强化学习之图解PPO算法和TD3算法）。

SAC的论文有两篇，一篇是《Soft Actor-Critic Algorithms and Applications》，2018年12月挂arXiv，其中SAC算法流程如下所示，它包括1个actor网络，4个Q Critic网络：

一篇是《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》，2018年1月挂arXiv，其中SAC算法流程如下所示，它包括1个actor网络，2个V Critic网络（1个V Critic网络，1个Target V Critic网络），2个Q Critic网络：

本文介绍的算法思路是1个actor网络，2个V Critic网络（1个V Critic网络，1个Target V Critic网络），2个Q Critic网络。而另一种SAC算法思路可以参考openAI的spinning up教程：openAI spinning up

1. 网络结构

关于SAC算法的网络结构图解，笔者认为此链接的讲解也非常地好：Soft Actor-Critic，本文和此链接的说法一致。

一个actor网络，四个critic网络，分别是状态价值估计

actor网络的输入为状态，输出为动作概率

critic网络的输入为状态，输出为状态的价值。其中 V Critic 网络的输出为

因为在SAC算法中为了鼓励探索，增加了熵的概念，所以它actor和critic网络的训练目标和常规不含熵的算法（如TD3，PPO）的训练目标不一样。

在SAC算法中，如果 actor网络输出的动作越能够使一个综合指标（既包含动作价值

如果 Q critic网络输出的动作价值

如果 V critic网络输出的状态价值

接下来只说SAC的算法流程，而不对其中的公式做过多的解释，具体SAC算法的推导过程可以参考《最前沿：深度解读Soft Actor-Critic 算法》。

2. 产生experience的过程

已知一个状态

以上是离散动作的情况，如果是连续动作，就输出概率分布的参数（比如高斯分布的均值和方差），然后按照概率分布去采样得到动作

经验池存在的意义是为了消除experience的相关性，因为强化学习中前后动作通常是强相关的，而将它们打散，放入经验池中，然后在训练神经网络时，随机地从经验池中选出一批experience，这样能够使神经网络训练地更好。

3. Q Critic网络的更新流程

拿从经验池buffer中采出的数据

基于最优贝尔曼方程，用

注意取MSELoss就意味着对从经验池buffer中取一个batch的数据进行了求平均的操作，即：

pytorch代码如下：

# train Q critic
        next_v_tensor = self.v_target_net(next_state_tensor)
        q_target_tensor = reward_tensor.unsqueeze(1) + self.gamma * (1. - done_tensor.unsqueeze(1)) * next_v_tensor
        all_q0_pred_tensor = self.q0_net(state_tensor)
        q0_pred_tensor = torch.gather(all_q0_pred_tensor, 1, action_tensor.unsqueeze(1))
        q0_loss_tensor = self.q0_loss(q0_pred_tensor, q_target_tensor.detach())
        self.q0_optimizer.zero_grad()
        q0_loss_tensor.backward()
        self.q0_optimizer.step()

        all_q1_pred_tensor = self.q1_net(state_tensor)
        q1_pred_tensor = torch.gather(all_q1_pred_tensor, 1, action_tensor.unsqueeze(1))
        q1_loss_tensor = self.q1_loss(q1_pred_tensor, q_target_tensor.detach())
        self.q1_optimizer.zero_grad()
        q1_loss_tensor.backward()
        self.q1_optimizer.step()

4. V Critic网络的更新流程

拿从经验池buffer中采出的数据

用含熵的式子进行状态价值估计，即下式作为V critic网络输出的真实值：

可以看到

用V critic网络的输出作为预测值，最后用MSEloss作为Loss函数，对神经网络

注意取MSELoss就意味着对从经验池buffer中取一个batch的数据进行了求平均的操作，即：

pytorch代码如下：

# train V critic
        q0_tensor = self.q0_net(state_tensor)
        q1_tensor = self.q1_net(state_tensor)
        q01_tensor = torch.min(q0_tensor, q1_tensor)
        prob_tensor = self.actor_net(state_tensor)
        ln_prob_tensor = torch.log(prob_tensor.clamp(1e-6, 1.))
        entropic_q01_tensor = prob_tensor * (q01_tensor -
                self.alpha * ln_prob_tensor)
        # OR entropic_q01_tensor = prob_tensor * (q01_tensor - \
        #         self.alpha * torch.xlogy(prob_tensor, prob_tensor)
        v_target_tensor = torch.sum(entropic_q01_tensor, dim=-1, keepdim=True)
        v_pred_tensor = self.v_evaluate_net(state_tensor)
        v_loss_tensor = self.v_loss(v_pred_tensor, v_target_tensor.detach())
        self.v_optimizer.zero_grad()
        v_loss_tensor.backward()
        self.v_optimizer.step()

        self.update_net(self.v_target_net, self.v_evaluate_net)

5. Actor网络的更新流程

对actor网络训练的loss稍微有些复杂，其表达式为：

可以看到

其中：

pytorch代码如下：

# train actor
        prob_q_tensor = prob_tensor * (self.alpha * ln_prob_tensor - q0_tensor)
        actor_loss_tensor = prob_q_tensor.sum(axis=-1).mean()
        self.actor_optimizer.zero_grad()
        actor_loss_tensor.backward()
        self.actor_optimizer.step()

posted @ 2025-06-26 22:38 有何m不可阅读(411) 评论(0) 收藏举报

刷新页面返回顶部

gongzb

强化学习之图解SAC算法

SAC算法简介

1. 网络结构

2. 产生experience的过程

3. Q Critic网络的更新流程

4. V Critic网络的更新流程

5. Actor网络的更新流程

公告