强化学习(十七)-MCTS

一、基于模拟的搜索

1、模拟:基于强化学习模型,进行采样,得到样本数据

2、搜索:利用模拟的样本数据,计算采取什么动作

3、非模拟的前向搜索,状态动作数量多,就会导致动作的选择特别慢,不实用

4、MCTS适合状态、动作是海量数据的强化学习

 

二、简单蒙特卡洛搜索

1、可以处理中等规模的问题,比前向搜索处理能力好

2、对当前状态St的每个动作,都进行K次模拟采样,若有n个动作,采样次数为nK

 

三、蒙特卡洛树搜索(Monte-Carlo Tree Search,MCTS)

1、只部分采样,总共对当前状态St,进行K次模拟采样,降低了采样数量和计算量

2、两个阶段

树内策略:模拟采样得到的状态,存在于当前MCTS时,一般使用ϵ-贪婪策略

默认策略:不存在时,使用默认策略,并把状态加入到MCTS中

3、适合于每一步都有延时奖励的场景

 

四、上限置信区间算法UCT

1、让最优策略和探索达到一个平衡,不是一直选择最优策略,还能适当探索新的动作

2、通过设置探索率,来选择不同的动作

 

五、棋类游戏MCTS搜索

1、棋类游戏中,一个动作,只有在棋局结束时,才能拿到真正的奖励

2、需要对MCTS做一些优化

3、四步完成搜索

选择、扩展、仿真、回溯

 

posted @ 2025-08-26 17:54  牧云文仔  阅读(27)  评论(0)    收藏  举报