摘要:
一、概念 1、深度确定性策略梯度Deep Deterministic Policy Gradient 是Actor-Critic的升级版本,输出的不是动作概率,而是具体的动作,用于连续动作的预测,是连续控制领域经典的强化学习算法 2、深度Deep:结合了DQN,包含记忆库、现实网络、估计网络,提高了 阅读全文
posted @ 2025-08-18 17:51
牧云文仔
阅读(44)
评论(0)
推荐(0)
摘要:
一、概念 1、融合了以价值学习为基础的算法(例如Q Learning)和以策略学习为基础的算法(例如Policy Gradient) 2、Actor对应Policy Gradient,在连续的行为中,基于概率选择合适的行为,回合更新,根据得分来修改选择行为的概率 3、Critic对应Q Learni 阅读全文
posted @ 2025-08-18 17:48
牧云文仔
阅读(30)
评论(0)
推荐(0)
摘要:
一、概念 1、DQN的缺点: 对连续动作的处理能力不足 对受限状态下的问题处理能力不足 无法解决随机策略问题 2、基于策略的算法,是对策略近似表示成一个连续的函数 3、寻找最优策略的方法是梯度上升 二、特点 1、不根据奖惩的值,直接输出action,不需要value 2、能够在一个连续区间内,选择动 阅读全文
posted @ 2025-08-18 17:25
牧云文仔
阅读(10)
评论(0)
推荐(0)
摘要:
一、概念 1、基于表格的强化学习(Q-Learning和Sarsa),数据量大的情况下,很耗时,例如表格里的state太多 2、所以引入了DQN(Deep Q-Learning Network),它融合了神经网络和Q-Learning 3、并且使用价值函数近似:神经网络通过状态,近似表示状态/动作价 阅读全文
posted @ 2025-08-18 16:49
牧云文仔
阅读(40)
评论(0)
推荐(0)
摘要:
一、概念 1、强化学习有两个问题:预测和控制 时序差分可以解决强化学习的预测问题 Sarsa是时序差分在线控制算法,解决控制问题 2、控制算法有两种:在线和离线 在线控制,使用一个策略(ϵ-贪婪法),来更新价值函数、进行动作选择 离线控制,使用两个策略,分别用于更新价值函数、进行动作选择 3、Sar 阅读全文
posted @ 2025-08-18 15:50
牧云文仔
阅读(54)
评论(0)
推荐(0)
摘要:
一、概念 1、Q Table是一个记录了价值的表,行为state,列为action,每个action对应不同的奖惩的值,在当前state时选择Q表里值最大的action 2、强化学习的控制问题:给定5个要素(状态集S,动作集A,即时奖励R,衰减因子γ,探索率ϵ),求最优的动作价值函数q∗、最优的策略 阅读全文
posted @ 2025-08-18 15:20
牧云文仔
阅读(32)
评论(0)
推荐(0)
浙公网安备 33010602011771号