摘要:
本章将会把蒙特卡洛(Monte Carlo, MC)算法和单步时序差分(one-step temporal-difference, TD(0))方法相结合。MC算法需要完成一轮交互才进行更新,而TD(0)算法则是每一步都进行更新,两者都比较极端。n步TD算法综合了这两者的特点,它可以允许交互\(n\ 阅读全文
posted @ 2024-06-25 11:23
不秃头的程序员不秃头
阅读(279)
评论(0)
推荐(0)
摘要:
时序差分(temporal difference,TD)学习是强化学习最核心和流行的方法。TD学习结合了MC和DP的思想,既类似蒙特卡洛(Monte Carlo,MC)方法直接从交互经验中学习而不需要获得环境动态信息,又类似动态规划(Dynamic Programming, DP)方法利用其他状态的 阅读全文
posted @ 2024-06-25 10:31
不秃头的程序员不秃头
阅读(525)
评论(0)
推荐(0)

浙公网安备 33010602011771号