摘要:
一、强化学习分类 1、基于价值:从价值函数中学习,Q-Learning,Sarsa 2、基于策略:从策略函数中学习,Policy Gradient 3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型 状态转化预测模型:输入当前状态s和动作a,预测下一个状态s' 奖励预测模 阅读全文
posted @ 2025-08-26 17:53
牧云文仔
阅读(9)
评论(0)
推荐(0)
摘要:
一、概念 1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习 2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题 3、使用python多线程,提供了通用 阅读全文
posted @ 2025-08-26 13:42
牧云文仔
阅读(20)
评论(0)
推荐(0)
摘要:
一、Nature DQN 1、DQN缺点:只有一个神经网络,既选择动作,又估计价值,估计值容易过高;不能保证Q网络收敛,Q网络模型效果差 2、Nature DQN两个Q神经网络,在线网络用于动作选择,目标网络用于估计Q值,减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的 阅读全文
posted @ 2025-08-26 13:34
牧云文仔
阅读(25)
评论(0)
推荐(0)
浙公网安备 33010602011771号