随笔档案「2022年4月12日」：强化学习表格型求解方法、表格近似（函数）求解方法、策略梯度方法的区别 ... - 芋圆院长

2022年4月12日

摘要：近来发现自己概念有些混淆，写一点自己对从Sutton书上看到的这些方法之间联系的理解和想法。【如有不恰当的地方，欢迎指正！】前言强化学习的初始驱动就是通过和环境互动得到的奖励来评估经历过的状态或状态下选择的动作的好坏，从而选择出合适的策略进行控制。所以最好的办法就是之前DP提到的利用贝尔曼方阅读全文

posted @ 2022-04-12 21:11 芋圆院长阅读(144) 评论(0) 推荐(0)

芋圆院长

公告