强化学习(十六)-Dyna
一、强化学习分类
1、基于价值:从价值函数中学习,Q-Learning,Sarsa
2、基于策略:从策略函数中学习,Policy Gradient
3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型
状态转化预测模型:输入当前状态s和动作a,预测下一个状态s'
奖励预测模型:输入当前状态s和动作a,预测环境的奖励r
4、单独的基于模型的算法不实用,一般不单独使用,而是结合不基于模型的算法
二、Dyna框架
1、不是一个具体的算法,而是一类算法的框架
2、基于模型+不基于模型的算法,结合起来
3、Dyna-Q,结合了Q Learning
三、Dyna-2
1、和环境进行交互的经历、模型预测,这两部分进行分离
2、永久记忆利用实际经验更新
3、瞬时记忆利用模型的模拟经验来更新
4、基本思想:选择实际的执行动作之前,agent先执行一遍基于模型的模拟,得到动作值函数,加上实际经验得到的值函数,共同选择要执行的动作
浙公网安备 33010602011771号