摘要:
在某些契机下,制作了构想很久的个人 icon。 阅读全文
posted @ 2024-03-21 16:55
MoonOut
阅读(54)
评论(0)
推荐(0)
摘要:
如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46
MoonOut
阅读(414)
评论(0)
推荐(0)

浙公网安备 33010602011771号