2019 年 2月 26 日随笔档案 - 范加索尔拉

2019年2月26日

摘要： [toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 值函数的近似当状态动作数目太多时，使用表格存储所有的状态动作会造成维度灾难，无法求解大规模问题。可以采用一个函数来近似这个这个表格，输入状态动作，输阅读全文

posted @ 2019-02-26 11:28 范加索尔拉阅读(808) 评论(0) 推荐(0) 编辑

DQN(Deep Reiforcement Learning) 发展历程（三）

摘要： [toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型(Model free)的预测无法事先了解状态转移的概率矩阵蒙特卡罗方法从开始状态开始，到终结状态，找到一条完整的状态序列，以求解每个状态的值阅读全文

posted @ 2019-02-26 11:27 范加索尔拉阅读(691) 评论(0) 推荐(0) 编辑

DQN(Deep Reiforcement Learning) 发展历程（四）

摘要： [toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型的控制选取动作的方法贪婪法，每次控制都选择状态值最大的动作，容易局部收敛，找不到全局最优。引入 epsilon greedy，按 epsilo 阅读全文

posted @ 2019-02-26 11:27 范加索尔拉阅读(523) 评论(0) 推荐(0) 编辑

DQN(Deep Reiforcement Learning) 发展历程（二）

摘要： [toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 动态规划动态规划给出了求解强化学习的一种方式使用条件使用动态规划需要两个条件总问题可以分解成一系列相互重叠的子问题子问题的求解结果被存储下来并且可以阅读全文

posted @ 2019-02-26 11:26 范加索尔拉阅读(588) 评论(0) 推荐(0) 编辑

DQN(Deep Reiforcement Learning) 发展历程(一)

摘要： [toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 马尔可夫理论马尔可夫性质 P[St+1 | St] = P[St+1 | S1,...,St] 给定当前状态 St ，过去的状态可以不用考虑当前状态 St 阅读全文

posted @ 2019-02-26 11:24 范加索尔拉阅读(1713) 评论(0) 推荐(0) 编辑

范加索尔拉

公告