2025 年 6月 26 日随笔档案 - 有何m不可

2025年6月26日

摘要：转自：https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义，网上有很多不同的讨论，比较常见的说法是看behavior policy（行为策略，即与环境进行交互的策略）和target policy（目标策略，即学习准确地评估Q 阅读全文

posted @ 2025-06-26 23:23 有何m不可阅读(349) 评论(0) 推荐(0)

强化学习之图解SAC算法

摘要： SAC算法简介转自：https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价（Soft Actor-Critic，SAC）算法的网络结构有5个。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是 off-policy 的强化学习算法（关于on 阅读全文

posted @ 2025-06-26 22:38 有何m不可阅读(400) 评论(0) 推荐(0)

gongzb

公告