上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: 1. 前言 从本章起,我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点,即我们可以知道环境运转的细节,具体说就是知道状态转移概率$P(s_{t+1}|s_t,a_t)$。对蛇棋来说,我们可以看到蛇棋的棋盘,也就可以了解到整个游戏的全貌,这时我们相当于站在上帝视角,能够看清一切情况。 阅读全文
posted @ 2019-02-17 22:09 hyc339408769 阅读(2184) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾 我们把注意点放在值函数上,等值函数收敛了,我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1 阅读全文
posted @ 2019-02-16 19:25 hyc339408769 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划的思想,那我们简单的回顾下动态规划的特点。 1. 最优子结构 :是指一个子问题的最优解是可以得到的 阅读全文
posted @ 2019-02-16 09:12 hyc339408769 阅读(3436) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式。 "本节完整代码GitHub" 。 我们开始介绍策略迭代前,先介绍一个蛇棋的游戏 它是我们后面学习的环境,介绍下它的规则: 1. 玩家每人拥有一个棋子,出发点在图中标为“1”的格子处。 2. 依次掷骰子,根据骰子的点数将自己的棋 阅读全文
posted @ 2019-02-15 23:31 hyc339408769 阅读(3517) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP,本文的任务是介绍如何通过价值函数,去寻找到最优策略,使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式: 状态值函数: $$ v_{\pi}(s_ 阅读全文
posted @ 2019-02-14 22:49 hyc339408769 阅读(5178) 评论(0) 推荐(1) 编辑
摘要: 1. 前言 前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框架,强化学习的交互流程可以很好地以概率论的形式表示出来,解决强化学习问题的关键定理也可以依此 阅读全文
posted @ 2019-02-13 21:30 hyc339408769 阅读(9417) 评论(3) 推荐(1) 编辑
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short Term 阅读全文
posted @ 2019-02-12 19:56 hyc339408769 阅读(15550) 评论(0) 推荐(0) 编辑
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 RNN( Recurrent Neural Network 循环(递归)神经网络) 跟人的大脑记忆差不多。我们的任何决定,想法都是根据我们之前已经学到的东西产生的。RNN 阅读全文
posted @ 2019-02-12 19:24 hyc339408769 阅读(3452) 评论(0) 推荐(0) 编辑
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。 传统的机器学习算法非常依赖 阅读全文
posted @ 2019-02-12 19:22 hyc339408769 阅读(12363) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在机器学习中,种类最多的一类算法要属很类算法,本文对机器学习中的各种分类算法的优缺点做一个总结。 2. 贝叶斯分类法 2.1 优点 1. 所需 估计的参数少,对于缺失数据不敏感 。 2. 有着坚实的数学基础,以及稳定的分类效率。 2.2 缺点 1. 假设属性之间相互独立,这往往并不成立。 阅读全文
posted @ 2019-02-12 08:25 hyc339408769 阅读(3243) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页