2020 年 9月 9 日随笔档案 - 吱吱了了

2020年9月9日

强化学习（7）---动态规划

摘要：一、概念： DP这个词，指的是一系列的算法，这些算法主要用来解决：当我有了一个可以完美模拟马尔可夫过程的模型之后，如何计算最优policies的问题。注意是policies，表明最优的策略可能不止一个。经典的DP算法在强化学习中的应用受限的原因有两个：一个是强假设满足不了，就是无法保证我能先有一个完阅读全文

posted @ 2020-09-09 00:19 吱吱了了阅读(431) 评论(0) 推荐(0) 编辑

强化学习（7）---动态规划

导航

公告