// // // //

02 2019 档案

 
cnn-手写数字识别
摘要:手写数字识别经典案例,旨在熟悉cnn网络结构,掌握tf编写cnn的方法。 手写数字识别任务比较简单,据资料显示 2层卷积2层全连接的网络结构,是目前识别率最高的cnn模型。 对于复杂的场景 1. 通常需要更多的辅助技术,如集成学习,学习率衰减,数据扩充, 集成学习和lr衰减没什么好说的,这里简单介绍 阅读全文
posted @ 2019-02-28 18:03 努力的孔子 阅读(754) 评论(0) 推荐(0)
基础理论-极大似然
摘要:官方解释 求未知参数点估计的一种重要方法。思路是设一随机试验在已知条件下,有若干个结果A,B,C,…,如果在一次试验中A发生了,则可认为在已知条件下最有利于A发生, 故应按照已知条件选择分布的参数,使发生A的概率最大。 通俗理解 1. 极大似然是用来求某种分布的参数的方法。那怎么求呢? 2. 在某种 阅读全文
posted @ 2019-02-28 17:51 努力的孔子 阅读(413) 评论(0) 推荐(0)
决策树-缺失值处理
摘要:缺失值算是决策树里处理起来比较麻烦的了,其他简单的我就不发布了。 阅读全文
posted @ 2019-02-28 17:50 努力的孔子 阅读(1978) 评论(0) 推荐(0)
循环神经网络(一)-RNN入门
摘要:首先学习RNN需要一定的基础,即熟悉普通的前馈神经网络,特别是BP神经网络,最好能够手推。 所谓前馈,并不是说信号不能反向传递,而是网络在拓扑结构上不存在回路和环路。 而RNN最大的不同就是存在环路。 为什么需要RNN 1. 特征之间序列性 普通的神经网络的输入,具备样本独立同分布(iid), 特征 阅读全文
posted @ 2019-02-26 20:51 努力的孔子 阅读(809) 评论(0) 推荐(0)
卷积神经网络-疑点解析
摘要:在学习RNN的时候,经常会用CNN来类比,过程中我发现自己对CNN有些地方理解的还不是很清楚。 疑惑1:CNN卷积层的神经元是什么样的? CNN的卷积层包括各种概念,各种计算,但是我忽然发现,基本没人提到卷积层的神经元,而且在tensorflow编程中,也无需设置卷积层的神经元,这使得我们更加忽略了 阅读全文
posted @ 2019-02-26 20:49 努力的孔子 阅读(394) 评论(0) 推荐(0)
循环神经网络(三)-RNN进阶
摘要:这部分许多内容要类比CNN来进行理解和解释,所以需要对CNN比较熟悉。 RNN的特点 1. 权值共享 CNN权值共享,RNN也有权值共享,在入门篇可以看到RNN结构图中,权重使用的是同样的字母 为什么要权值共享 a. 减少weight,减少计算量,这点其实比较好理解。 试想10X10的输入,全连接隐 阅读全文
posted @ 2019-02-24 14:18 努力的孔子 阅读(1424) 评论(0) 推荐(1)
卷积神经网络CNN【1】-简介
摘要:卷积神经网络真的挺难靠文字讲清楚的,一般需要大量图片来辅助理解,时间关系,我就不仔细讲了,这里记录一下大致的算法和注意点。 首先我概括一下卷积神经网络 卷积神经网络是通过卷积核进行特征提取,从一个样本身上利用很多个卷积核提取这个样本的很多特征,通过池化进行降维,然后利用普通的全连接神经网络进行训练。 阅读全文
posted @ 2019-02-24 12:05 努力的孔子 阅读(1473) 评论(0) 推荐(0)
tensorflow基础【5】-tensorboard
摘要:先学习几个英文单词 summary 汇总,摘要 scope 范围 我这是很早以前的笔记,后来有了博客才发布的,有些内容比较老,懒得改了。 先说明总体流程 暂时不管怎么编程,假设已经有了如下代码,可执行的。 # encoding:utf-8 import tensorflow as tf print( 阅读全文
posted @ 2019-02-23 16:58 努力的孔子 阅读(681) 评论(0) 推荐(0)
强化学习8-时序差分控制离线算法Q-Learning
摘要:Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念 时序差分控制算法的分类:在线和离线 在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa 离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning Q 阅读全文
posted @ 2019-02-22 09:20 努力的孔子 阅读(926) 评论(0) 推荐(0)
强化学习7-Sarsa
摘要:之前讲到时序差分是目前主流强化学习的基本思路,这节就学习一下主流算法之一 Sarsa模型。 Sarsa 是免模型的控制算法,是通过更新状态动作价值函数来得到最优策略的方法。 更新方法 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A)) // 回顾一下蒙特卡罗的更新方式 Q(S,A 阅读全文
posted @ 2019-02-20 18:00 努力的孔子 阅读(1277) 评论(0) 推荐(2)
强化学习6-MC与TD的比较-实战
摘要:可以看到 随着学习率的增大,效果越来越好,当学习率为0.5时,已经明显过拟合了 这个是单步的,书上是单回合的,所以不同,后续有空会更新代码 随机行走有个特殊性:两个终点,有一个终点奖励为0,也就是说在前几个回合中,单步更新的TD如果一开始向左走,需要好多步才能到达右边终点,而MC由于是整个回合,要么 阅读全文
posted @ 2019-02-18 17:26 努力的孔子 阅读(1221) 评论(0) 推荐(0)
强化学习4-时序差分TD
摘要:之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+ 阅读全文
posted @ 2019-02-17 22:16 努力的孔子 阅读(663) 评论(0) 推荐(1)
强化学习3-蒙特卡罗MC
摘要:之前讲到强化学习可以用马尔科夫决策过程来描述,通常情况下,马尔科夫需要知道 {S A P R γ},γ是衰减因子,那为什么还需要蒙特卡罗呢? 首先什么是蒙特卡罗? 蒙特卡罗实际上是一座赌城的名字,蒙特卡罗方法是冯 诺依曼 用这座赌城的名字起的。 蒙特卡罗方法的主要思想是:当求解的问题是某随机事件出现 阅读全文
posted @ 2019-02-17 15:43 努力的孔子 阅读(391) 评论(0) 推荐(1)