强化学习(十七)-MCTS
一、基于模拟的搜索
1、模拟:基于强化学习模型,进行采样,得到样本数据
2、搜索:利用模拟的样本数据,计算采取什么动作
3、非模拟的前向搜索,状态动作数量多,就会导致动作的选择特别慢,不实用
4、MCTS适合状态、动作是海量数据的强化学习
二、简单蒙特卡洛搜索
1、可以处理中等规模的问题,比前向搜索处理能力好
2、对当前状态St的每个动作,都进行K次模拟采样,若有n个动作,采样次数为nK
三、蒙特卡洛树搜索(Monte-Carlo Tree Search,MCTS)
1、只部分采样,总共对当前状态St,进行K次模拟采样,降低了采样数量和计算量
2、两个阶段
树内策略:模拟采样得到的状态,存在于当前MCTS时,一般使用ϵ-贪婪策略
默认策略:不存在时,使用默认策略,并把状态加入到MCTS中
3、适合于每一步都有延时奖励的场景
四、上限置信区间算法UCT
1、让最优策略和探索达到一个平衡,不是一直选择最优策略,还能适当探索新的动作
2、通过设置探索率,来选择不同的动作
五、棋类游戏MCTS搜索
1、棋类游戏中,一个动作,只有在棋局结束时,才能拿到真正的奖励
2、需要对MCTS做一些优化
3、四步完成搜索
选择、扩展、仿真、回溯
浙公网安备 33010602011771号