摘要:
蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)是一种在决策过程中进行最优选择的算法,尤其在博弈类游戏和具有复杂状态空间的问题中表现出色。 基本概念 蒙特卡洛树搜索结合了蒙特卡洛方法的随机采样特性和树搜索的结构,用于在大规模的状态空间中寻找最优策略。它通过模拟大量的随机游戏 阅读全文
posted @ 2025-02-28 21:51
AI_Engineer
阅读(1566)
评论(0)
推荐(0)
摘要:
SARSA(State - Action - Reward - State - Action)算法和Q - learning算法均为强化学习领域中用于学习最优策略的无模型算法,二者存在诸多区别,下面从多个方面进行详细阐述: 算法类型与策略特性 Q - learning:属于离线策略(off - po 阅读全文
posted @ 2025-02-28 14:56
AI_Engineer
阅读(253)
评论(0)
推荐(0)
摘要:
在Q-learning的学习过程中,我们需要维护一个 |S|x|A| 的Q表,当任务的状态空间和动作空间过大时,空间复杂度和时间复杂度都太高,为了解决这个问题,DQN采用神经网络来代替Q表,输入状态,预估该状态下采用不同动作的Q值 神经网络本身不是DQN的精髓,神经网络可以设计成MLP也可以设计成C 阅读全文
posted @ 2025-02-28 11:24
AI_Engineer
阅读(167)
评论(0)
推荐(0)