摘要:
一、介绍 1、两个模型:MCTS树结构,神经网络 阅读全文
posted @ 2025-08-26 17:55
牧云文仔
阅读(6)
评论(0)
推荐(0)
摘要:
一、基于模拟的搜索 1、模拟:基于强化学习模型,进行采样,得到样本数据 2、搜索:利用模拟的样本数据,计算采取什么动作 3、非模拟的前向搜索,状态动作数量多,就会导致动作的选择特别慢,不实用 4、MCTS适合状态、动作是海量数据的强化学习 二、简单蒙特卡洛搜索 1、可以处理中等规模的问题,比前向搜索 阅读全文
posted @ 2025-08-26 17:54
牧云文仔
阅读(20)
评论(0)
推荐(0)
摘要:
一、强化学习分类 1、基于价值:从价值函数中学习,Q-Learning,Sarsa 2、基于策略:从策略函数中学习,Policy Gradient 3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型 状态转化预测模型:输入当前状态s和动作a,预测下一个状态s' 奖励预测模 阅读全文
posted @ 2025-08-26 17:53
牧云文仔
阅读(9)
评论(0)
推荐(0)
摘要:
一、概念 1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习 2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题 3、使用python多线程,提供了通用 阅读全文
posted @ 2025-08-26 13:42
牧云文仔
阅读(20)
评论(0)
推荐(0)
摘要:
一、Nature DQN 1、DQN缺点:只有一个神经网络,既选择动作,又估计价值,估计值容易过高;不能保证Q网络收敛,Q网络模型效果差 2、Nature DQN两个Q神经网络,在线网络用于动作选择,目标网络用于估计Q值,减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的 阅读全文
posted @ 2025-08-26 13:34
牧云文仔
阅读(23)
评论(0)
推荐(0)
浙公网安备 33010602011771号