hyc339408769 - 博客园

2019年2月17日

摘要： 1. 前言从本章起，我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点，即我们可以知道环境运转的细节，具体说就是知道状态转移概率$P(s_{t+1}|s_t,a_t)$。对蛇棋来说，我们可以看到蛇棋的棋盘，也就可以了解到整个游戏的全貌，这时我们相当于站在上帝视角，能够看清一切情况。阅读全文

posted @ 2019-02-17 22:09 hyc339408769 阅读(2184) 评论(0) 推荐(0) 编辑

2019年2月16日

强化学习-价值迭代代码实现

摘要： 1. 前言上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾我们把注意点放在值函数上，等值函数收敛了，我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1 阅读全文

posted @ 2019-02-16 19:25 hyc339408769 阅读(1945) 评论(0) 推荐(0) 编辑

强化学习-价值迭代

摘要： 1. 前言在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢，那我们就会想有没更好更快的迭代方法，今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划价值迭代需要用到动态规划的思想，那我们简单的回顾下动态规划的特点。 1. 最优子结构：是指一个子问题的最优解是可以得到的阅读全文

posted @ 2019-02-16 09:12 hyc339408769 阅读(3436) 评论(0) 推荐(0) 编辑

2019年2月15日

强化学习-策略迭代代码实现

摘要： 1. 前言今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式。 "本节完整代码GitHub" 。我们开始介绍策略迭代前，先介绍一个蛇棋的游戏它是我们后面学习的环境，介绍下它的规则： 1. 玩家每人拥有一个棋子，出发点在图中标为“1”的格子处。 2. 依次掷骰子，根据骰子的点数将自己的棋阅读全文

posted @ 2019-02-15 23:31 hyc339408769 阅读(3517) 评论(0) 推荐(0) 编辑

2019年2月14日

强化学习-策略迭代

摘要： 1. 前言在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP，本文的任务是介绍如何通过价值函数，去寻找到最优策略，使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式：状态值函数： $$ v_{\pi}(s_ 阅读全文

posted @ 2019-02-14 22:49 hyc339408769 阅读(5178) 评论(0) 推荐(1) 编辑

2019年2月13日

强化学习-MDP(马尔可夫决策过程)算法原理

摘要： 1. 前言前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP（马尔可夫决策过程）。 2. MDP定义 MDP是当前强化学习理论推导的基石，通过这套框架，强化学习的交互流程可以很好地以概率论的形式表示出来，解决强化学习问题的关键定理也可以依此阅读全文

posted @ 2019-02-13 21:30 hyc339408769 阅读(9417) 评论(3) 推荐(1) 编辑

2019年2月12日

3. RNN神经网络-LSTM模型结构

摘要： "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short Term 阅读全文

posted @ 2019-02-12 19:56 hyc339408769 阅读(15550) 评论(0) 推荐(0) 编辑

2. RNN神经网络模型的不同结构

摘要： "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 RNN( Recurrent Neural Network 循环(递归)神经网络) 跟人的大脑记忆差不多。我们的任何决定，想法都是根据我们之前已经学到的东西产生的。RNN 阅读全文

posted @ 2019-02-12 19:24 hyc339408769 阅读(3452) 评论(0) 推荐(0) 编辑

1. RNN神经网络模型原理

摘要： "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言循环神经网络（recurrent neural network）源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。传统的机器学习算法非常依赖阅读全文

posted @ 2019-02-12 19:22 hyc339408769 阅读(12363) 评论(0) 推荐(0) 编辑

机器学习常见的分类算法的优缺点

摘要： 1. 前言在机器学习中，种类最多的一类算法要属很类算法，本文对机器学习中的各种分类算法的优缺点做一个总结。 2. 贝叶斯分类法 2.1 优点 1. 所需估计的参数少，对于缺失数据不敏感。 2. 有着坚实的数学基础，以及稳定的分类效率。 2.2 缺点 1. 假设属性之间相互独立，这往往并不成立。阅读全文

posted @ 2019-02-12 08:25 hyc339408769 阅读(3243) 评论(0) 推荐(0) 编辑

人工智站

公告