摘要:
DDPG 的算法实际上就是一种 Actor Critic 关于 Actor 部分, 他的参数更新同样会涉及到 Critic, 上面是关于 Actor 参数的更新, 它的前半部分 grad[Q] 是从 Critic 来的, 这是在说: 这次 Actor 的动作要怎么移动, 才能获得更大的 Q, 而后半 阅读全文
posted @ 2017-12-26 16:11
WegZumHimmel
阅读(566)
评论(0)
推荐(0)

浙公网安备 33010602011771号