2020年9月9日

强化学习(7)---动态规划

摘要: 一、概念: DP这个词,指的是一系列的算法,这些算法主要用来解决:当我有了一个可以完美模拟马尔可夫过程的模型之后,如何计算最优policies的问题。注意是policies,表明最优的策略可能不止一个。经典的DP算法在强化学习中的应用受限的原因有两个:一个是强假设满足不了,就是无法保证我能先有一个完 阅读全文

posted @ 2020-09-09 00:19 吱吱了了 阅读(431) 评论(0) 推荐(0) 编辑

导航