随笔分类 - Reinforcement Learning
摘要:DQN 算法改进 (一)Dueling DQN Dueling DQN 是一种基于 DQN 的改进算法。主要突破点:利用模型结构将值函数表示成更加细致的形式,这使得模型能够拥有更好的表现。下面给出公式,并定义一个新的变量: $$ q(s_t, a_t)=v(s_t)+A(s_t, a_t) $$ 也
阅读全文
摘要:马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo
阅读全文
摘要:【强化学习】值迭代和策略迭代 在强化学习中我们经常会遇到策略迭代与值迭代,但是很多人都搞不清楚他们两个之间的区别,他们其实都是强化学习中的动态规划方法(DP)。 ——《Reinforcement Learning:An Introduction》 (一)值迭代 (二)策略迭代 从一个初始化的策略出发
阅读全文
摘要:强化学习: 强化学习作为一门灵感来源于 心理学中的行为主义理论 的学科,其内容涉及 概率论、统计学、逼近论、凸分析、计算复杂性理论、运筹学 等多学科知识,难度之大,门槛之高,导致其发展速度特别缓慢。 一种解释: 人的一生其实都是不断在强化学习,当你有个动作(action)在某个状态(state)执行
阅读全文
浙公网安备 33010602011771号