会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
人工智站
博客园
首页
联系
订阅
管理
上一页
1
2
3
4
5
6
···
10
下一页
2019年2月17日
强化学习-蒙特卡罗法
摘要: 1. 前言 从本章起,我们开始解决更贴近实际的问题。前面提到我们接触过的问题有一个特点,即我们可以知道环境运转的细节,具体说就是知道状态转移概率$P(s_{t+1}|s_t,a_t)$。对蛇棋来说,我们可以看到蛇棋的棋盘,也就可以了解到整个游戏的全貌,这时我们相当于站在上帝视角,能够看清一切情况。
阅读全文
posted @ 2019-02-17 22:09 hyc339408769
阅读(2227)
评论(0)
推荐(0)
2019年2月16日
强化学习-价值迭代代码实现
摘要: 1. 前言 上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾 我们把注意点放在值函数上,等值函数收敛了,我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1
阅读全文
posted @ 2019-02-16 19:25 hyc339408769
阅读(2029)
评论(0)
推荐(0)
强化学习-价值迭代
摘要: 1. 前言 在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划的思想,那我们简单的回顾下动态规划的特点。 1. 最优子结构 :是指一个子问题的最优解是可以得到的
阅读全文
posted @ 2019-02-16 09:12 hyc339408769
阅读(3716)
评论(0)
推荐(0)
2019年2月15日
强化学习-策略迭代代码实现
摘要: 1. 前言 今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式。 "本节完整代码GitHub" 。 我们开始介绍策略迭代前,先介绍一个蛇棋的游戏 它是我们后面学习的环境,介绍下它的规则: 1. 玩家每人拥有一个棋子,出发点在图中标为“1”的格子处。 2. 依次掷骰子,根据骰子的点数将自己的棋
阅读全文
posted @ 2019-02-15 23:31 hyc339408769
阅读(3764)
评论(0)
推荐(0)
2019年2月14日
强化学习-策略迭代
摘要: 1. 前言 在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP,本文的任务是介绍如何通过价值函数,去寻找到最优策略,使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式: 状态值函数: $$ v_{\pi}(s_
阅读全文
posted @ 2019-02-14 22:49 hyc339408769
阅读(5537)
评论(0)
推荐(1)
2019年2月13日
强化学习-MDP(马尔可夫决策过程)算法原理
摘要: 1. 前言 前面的 "强化学习基础知识" 介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框架,强化学习的交互流程可以很好地以概率论的形式表示出来,解决强化学习问题的关键定理也可以依此
阅读全文
posted @ 2019-02-13 21:30 hyc339408769
阅读(10199)
评论(3)
推荐(1)
2019年2月12日
3. RNN神经网络-LSTM模型结构
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short Term
阅读全文
posted @ 2019-02-12 19:56 hyc339408769
阅读(16452)
评论(0)
推荐(0)
2. RNN神经网络模型的不同结构
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 RNN( Recurrent Neural Network 循环(递归)神经网络) 跟人的大脑记忆差不多。我们的任何决定,想法都是根据我们之前已经学到的东西产生的。RNN
阅读全文
posted @ 2019-02-12 19:24 hyc339408769
阅读(3593)
评论(0)
推荐(0)
1. RNN神经网络模型原理
摘要: "1. RNN神经网络模型原理" "2. RNN神经网络模型的不同结构" "3. RNN神经网络 LSTM模型结构" 1. 前言 循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。 传统的机器学习算法非常依赖
阅读全文
posted @ 2019-02-12 19:22 hyc339408769
阅读(12767)
评论(0)
推荐(0)
机器学习常见的分类算法的优缺点
摘要: 1. 前言 在机器学习中,种类最多的一类算法要属很类算法,本文对机器学习中的各种分类算法的优缺点做一个总结。 2. 贝叶斯分类法 2.1 优点 1. 所需 估计的参数少,对于缺失数据不敏感 。 2. 有着坚实的数学基础,以及稳定的分类效率。 2.2 缺点 1. 假设属性之间相互独立,这往往并不成立。
阅读全文
posted @ 2019-02-12 08:25 hyc339408769
阅读(3470)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
10
下一页
公告