摘要:
转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q 阅读全文
posted @ 2025-06-26 23:23
有何m不可
阅读(258)
评论(0)
推荐(0)
摘要:
SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on 阅读全文
posted @ 2025-06-26 22:38
有何m不可
阅读(227)
评论(0)
推荐(0)

浙公网安备 33010602011771号