……
摘要: 众所周知,SAC 是 RL 中的一种高效的 Off Policy 算法,在《动手学强化学习》中已经给出了比较完善的实现。而 JAX 是一种新兴的神经网络范式,以函数式编程为基础,这里将以《动手学强化学习》中的实现为范本,实现一个 SAC In JAX,同时配套 tensorboard 与 model 阅读全文
posted @ 2025-09-10 14:35 童话镇里的星河 阅读(6) 评论(0) 推荐(0)