会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
myleaf
博客园
首页
新随笔
联系
订阅
管理
2024年12月2日
为什么Deep Deterministic Policy Gradient(DDPG)是Deterministic的?到底哪里体现了?和PPO什么区别?
摘要: Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”(确定性)的,因为它使用了一个确定性策略网络,而不是像传统的强化学习算法(例如,基于策略梯度的算法)那样使用随机策略网络。 具体来说,DDPG 使用的是一个确定性策略函数,通常表示为
阅读全文
posted @ 2024-12-02 15:11 泪水下的笑靥
阅读(453)
评论(1)
推荐(2)
公告