08 2019 档案
摘要:使用机器学习排序算法LambdaMART有一段时间了,但一直没有真正弄清楚算法中的所有细节。 学习过程中细读了两篇不错的博文,推荐给大家: 梯度提升树(GBDT)原理小结 徐博From RankNet to LambdaRank to LambdaMART: An Overview 但经过一番搜寻之
阅读全文
摘要:http://blog.csdn.net/pipisorry/article/details/45665779 主题模型LDA的应用 拿到这些topic后继续后面的这些应用怎么做呢:除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_39422642/article/details/78730662 <!-- flowchart 箭头图标 勿删 --> 这篇文章主要
阅读全文
摘要:这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。 Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其
阅读全文
摘要:一、简介 贝叶斯优化用于机器学习调参由J. Snoek(2012)提出,主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说,就是考虑了上一次参数的信息**
阅读全文
摘要:完整机器学习实现代码GitHub欢迎转载,转载请注明出处https://www.cnblogs.com/huangyc/p/10111234.html欢迎沟通交流: 339408769@qq.com 0. 目录 1. 前言 2. 深度学习中的主要参数 3. 自动调参 3.1 Gird Search
阅读全文
摘要:做dl也有一段时间了,积累了一些经验,也在网上看到一些别人的经验。 为了面试,结合知乎上面的问答,我也总结了一下,欢迎大家补充。 知乎 深度学习调参有哪些技巧? 一. 初始化 有人用normal初始化cnn的参数,最后acc只能到70%多,仅仅改成xavier,acc可以到98%。 二.从理解CNN
阅读全文
摘要:原 十、如何选择神经网络的超参数 2017年08月18日 10:33:06 独孤呆博 阅读数 21041 版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/dugudaibo/article
阅读全文
摘要:本文转载自:https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social 转载请注明:炼丹实验室 之前曾经写过一篇文章,讲了一些深度学习训练的技巧,其中包含了部分调参心得:深度学习训练心得。不过由于一般深度学习实验,
阅读全文
摘要:超参数(Hyper-Parameter)是困扰神经网络训练的问题之一,因为这些参数不可通过常规方法学习获得。 神经网络经典五大超参数: 学习率(Leraning Rate)、权值初始化(Weight Initialization)、网络层数(Layers) 单层神经元数(Units)、正则惩罚项(R
阅读全文
摘要:经常会被问到你用深度学习训练模型时怎么样改善你的结果呢?然后每次都懵逼了,一是自己懂的不多,二是实验的不多,三是记性不行忘记了。所以写这篇博客,记录下别人以及自己的一些经验。 Ilya Sutskever(Hinton的学生)讲述了有关深度学习的见解及实用建议: 获取数据:确保要有高质量的输入/输出
阅读全文
摘要:面对一个图像分类问题,可以有以下步骤: 1.建立一个简单的CNN模型,一方面能够快速地run一个模型,以了解这个任务的难度 卷积层1:卷积核大小3*3,卷积核移动步长1,卷积核个数64,池化大小2*2,池化步长2,池化类型为最大池化,激活函数ReLU。 卷积层2:卷积核大小3*3,卷积核移动步长1,
阅读全文
摘要:此篇文章是在原创教程这个栏目下,但实际上是一篇汇总整理文章。相信大家在做深度学习时对调参尤为无奈,经验不足乱调一通,或者参数太多无从下手,我也如此。希望通过此文汇总网上一些调参的经验方法,供大家参考。此文会对网上每一篇调参文章做简练的总结与提炼,以此为此文的组成单元,并附上原文的链接。如果遇到不对的
阅读全文
摘要:作者:Captain Jack链接:https://www.zhihu.com/question/25097993/answer/127472322来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 我现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间
阅读全文
摘要:之前看过TCN,稍微了解了一下语言模型,这篇论文也是对语言模型建模,但是由于对语言模型了解不深,一些常用数据处理方法,训练损失的计算包括残差都没有系统的看过,只是参考网上代码对论文做了粗浅的复现。开学以来通过看的几篇论文及复现基本掌握了tensorflow的基本使用,了解了“数据处理-模型构建-训练
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/liuchonge/article/details/70238350 <!-- flowchart 箭头图标 勿删 --> 最近忙着实验室的
阅读全文
摘要:哈哈哈,又到了讲段子的时间 准备好了吗? 今天要说的是CNN最后一层了,CNN入门就要讲完啦。。。。。 先来一段官方的语言介绍全连接层(Fully Connected Layer) 全连接层常简称为 FC,它是可能会出现在 CNN 中的、一个比较特殊的结构;从名字就可以大概猜想到、FC 应该和普通层
阅读全文
摘要:目录 使用非对称卷积分解大filters 重新设计pooling层 辅助构造器 使用标签平滑 参考资料 在《深度学习面试题20:GoogLeNet(Inception V1)》和《深度学习面试题26:GoogLeNet(Inception V2)》中对前两个Inception版本做了介绍,下面主要阐
阅读全文
摘要:目录 产生背景 工作原理 参考资料 产生背景 假设选用softmax交叉熵训练一个三分类模型,某样本经过网络最后一层的输出为向量x=(1.0, 5.0, 4.0),对x进行softmax转换输出为: 假设该样本y=[0, 1, 0],那损失loss: 按softmax交叉熵优化时,针对这个样本而言,
阅读全文
摘要:目录 产生背景 举例 参考资料 产生背景 之前在深度学习面试题16:小卷积核级联卷积VS大卷积核卷积中介绍过小卷积核的三个优势: ①整合了三个非线性激活层,代替单一非线性激活层,增加了判别能力。 ②减少了网络参数。 ③减少了计算量 在《Rethinking the Inception Archite
阅读全文
摘要:目录 第一层卷积换为分离卷积 一些层的卷积核的个数发生了变化 多个小卷积核代替大卷积核 一些最大值池化换为了平均值池化 完整代码 参考资料 第一层卷积换为分离卷积 net = slim.separable_conv2d( inputs, depth(64), [7, 7], depth_multip
阅读全文
摘要:目录 举例 单个张量与多个卷积核的分离卷积 参考资料 举例 分离卷积就是先在深度上分别卷积,然后再进行卷积,对应代码为: import tensorflow as tf # [batch, in_height, in_width, in_channels] input =tf.reshape(tf.
阅读全文
摘要:目录 举例 单个张量与多个卷积核在深度上分别卷积 参考资料 举例 如下张量x和卷积核K进行depthwise_conv2d卷积 结果为: depthwise_conv2d和conv2d的不同之处在于conv2d在每一深度上卷积,然后求和,depthwise_conv2d没有求和这一步,对应代码为:
阅读全文
摘要:目录 直接定义的缺点 简易定义的方式 参考资料 直接定义的缺点 在tensorflow中假设有一批输入为: 其定义如下: tf.constant([ [ [ [3, 1, -3], [1, -1, 7] ], [ [-2, 2, -5], [2, 7, 3] ] ], [ [ [-1, 3, 1],
阅读全文
摘要:目录 指数移动平均 BN在卷积网络中的使用 参考资料 假设已经训练好一个带有BN操作的卷积神经网络,但是在使用它预测时,往往每次只输入一个样本,那么经过该网络时,计算平均值和方差的意义就不大了,常采用的策略是计算训练阶段的平均值和方差的指数移动平均,然后在预测阶段使用它们作为BN操作时的平均值和方差
阅读全文
摘要:目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗 为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用 参考资料 BN的由来 BN是由Google于2015年提出,论文是《Batch Normalization_ Accelerating Deep Ne
阅读全文
摘要:目录 简介 网络结构 对应代码 网络说明 参考资料 简介 2014年,GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄,GoogLeNet获得了第一名、VGG获得了第二名,这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构,而
阅读全文
摘要:目录 举例 在Inception module上的应用 参考资料 可以减少计算量,可以增加非线性判别能力 举例 假设有1个高为30、宽为40,深度为200的三维张量与55个高为5、宽为5、深度为200的卷积核same卷积,步长=1,则结果是高为30、宽为40、深度为55的三维张量,如图所示: 该卷积
阅读全文
摘要:目录 举例 参考资料 网中网结构通过多个分支的运算(卷积或池化),将分支上的运算结果在深度上连接 举例 一个3*3*2的张量, 与3个1*1*2的卷积核分别same卷积,步长=1, 与2个2*2*2的卷积核分别same卷积,步长=1, 与1个3*3*2的掩码最大值same池化,步长=1, 将得到的这
阅读全文
摘要:目录 VGGNet网络结构 论文中还讨论了其他结构 参考资料 2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了ILSVRC2014比赛分类项目的第二名(第一名是GoogL
阅读全文
摘要:目录 感受野 多个小卷积核连续卷积和单个大卷积核卷积的作用相同 小卷积核的优势 参考资料 感受野 在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入
阅读全文
摘要:目录 举例 结论 参考资料 在一些书籍和博客中所讲的卷积(一个卷积核和输入的对应位置相乘,然后累加)不是真正意义上的卷积。根据离散卷积的定义,卷积核是需要旋转180的。 按照定义来说,一个输入和一个卷积核做卷积操作的流程是: ①卷积核旋转180 ②对应位置相乘,然后累加 举例 下面这个图是常见的卷积
阅读全文
摘要:目录 卷积层的dropout 全连接层的dropout Dropout的反向传播 Dropout的反向传播举例 参考资料 在训练过程中,Dropout会让输出中的每个值以概率keep_prob变为原来的1/keep_prob倍,以概率1-keep_prob变为0。也就是在每一轮的训练中让一些神经元随
阅读全文
摘要:目录 网络结构 两大创新点 参考资料 第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet,Alex Krizhevsky其实是Hinton的学生,这个团队领导者是Hinton,于2012年发表论文。 AlexNet有60 million个参数和65000个 神经
阅读全文
摘要:目录 神经网络的卷积、池化、拉伸 LeNet网络结构 LeNet在MNIST数据集上应用 参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务。自那时起,CNN的最基本的架构就定下来了:卷积层、池化层、全连接层。如今各大深度学习框架中所使用的LeNet
阅读全文
摘要:目录 Same最大值池化 多深度的same池化 Same平均值池化 Valid池化 参考资料 池化(Pooling)操作与卷积类似,取输入张量的每个位置的矩形领域内的最大值或平均值作为该位置的输出。 池化操作分为same池化和valid池化,同时还可以设置移动的步长 Same最大值池化 举例:4行4
阅读全文
摘要:目录 二维Full卷积 二维Same卷积 二维Valid卷积 三种卷积类型的关系 具备深度的二维卷积 具备深度的张量与多个卷积核的卷积 参考资料 二维卷积的原理和一维卷积类似,也有full卷积、same卷积和valid卷积。 举例:3*3的二维张量x和2*2的二维张量K进行卷积 二维Full卷积 F
阅读全文
摘要:目录 一维Full卷积 一维Same卷积 一维Valid卷积 三种卷积类型的关系 具备深度的一维卷积 具备深度的张量与多个卷积核的卷积 参考资料 一维卷积通常有三种类型:full卷积、same卷积和valid卷积,下面以一个长度为5的一维张量I和长度为3的一维张量K(卷积核)为例,介绍这三种卷积的计
阅读全文
摘要:目录 梯度消失 梯度爆炸 参考资料 以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失 在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(
阅读全文
摘要:目录 sigmod交叉熵 Softmax转换 Softmax交叉熵 参考资料 sigmod交叉熵 Sigmod交叉熵实际就是我们所说的对数损失,它是针对二分类任务的损失函数,在神经网络中,一般输出层只有一个结点。 假设y为样本标签,_y为全连接网络的输出层的值,那么,这个对数损失定义为 PS:这个是
阅读全文
摘要:目录 链式法则 逻辑回归的正、反向传播 逻辑回归的正、反向传播案例 全连接神经网络的正、反向传播 全连接神经网络的正、反向传播案例 参考资料 链式法则 类型一: 类型二: 类型三: 返回目录 逻辑回归的正、反向传播 逻辑回归可以看做最简单的神经网络,他只有一个神经元,损失函数选择的是对数损失,他的正
阅读全文
摘要:目录 为什么要用激活函数 sigmod tanh ReLU LeakyReLU ReLU6 参考资料 为什么要用激活函数 在神经网络中,如果不对上一层结点的输出做非线性转换的话,再深的网络也是线性模型,只能把输入线性组合再输出(如下图),不能学习到复杂的映射关系,因此需要使用激活函数这个非线性函数做
阅读全文
摘要:目录 一元线性回归模型 一元线性回归代价函数图像 梯度下降求解 SGD、BGD、Mini-batchGD的特点 参考资料 在《深度学习面试题03改进版梯度下降法Adagrad、RMSprop、Momentum、Adam》中讲到了多种改进的梯度下降公式。而这篇文章和03篇描述的不是一个事情,我们从一个
阅读全文
摘要:目录 Adagrad法 RMSprop法 Momentum法 Adam法 参考资料 发展历史 标准梯度下降法的缺陷 如果学习率选的不恰当会出现以上情况 因此有一些自动调学习率的方法。一般来说,随着迭代次数的增加,学习率应该越来越小,因为迭代次数增加后,得到的解应该比较靠近最优解,所以要缩小步长η,那
阅读全文
摘要:目录 一元函数的梯度下降法 多元函数的梯度下降法 参考资料 梯度下降是一种迭代式的最优化手段,在机器学习中一般用于求目标函数的极小值点,这个极小值点就是最优的模型内部参数。相比求解析解的手段,GD的通用性更强,所以受到广泛的使用。 一元函数的梯度下降法 比如求解f(x)=(x-1)2的最小值点 梯度
阅读全文
摘要:目录 导数 偏导数 方向导数 梯度 参考资料 导数 导数反映的是函数y=f(x)在某一点处沿x轴正方向的变化率。 比如y=x2,在x=1处的导数=2。 导数是通过极限来定义的,某一点的导数=tanψ,但是前提是△x趋近于0,此时tanψ=tanα=该点导数,公式如下: 返回目录 偏导数 在多元函数中
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/weixin_31866177/article/details/88601294 从SGD(SGD指mini-batch gradient
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/program_developer/article/details/80737724 “微信公众号” 本文同步更新在我的微信公众号里,地址:
阅读全文
摘要:深度学习是一个框架,包含多个重要算法: Convolutional Neural Networks(CNN)卷积神经网络 AutoEncoder自动编码器 Sparse Coding稀疏编码 Restricted Boltzmann Machine(RBM)限制波尔兹曼机 Deep Belief N
阅读全文
摘要:前面我们学习过深度学习中用于加速网络训练、提升网络泛化能力的两种策略:Batch Normalization(Batch Normalization)和Layer Normalization(LN)。今天讨论另一种与它们类似的策略:Weight Normalization(Weight Normal
阅读全文
摘要:之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to Rank的几类常用的方法:pointwise,pairwise,listwise。前面已经介绍了pai
阅读全文
摘要:问题描述 先来看看问题描述。 当我们使用sigmoid funciton 作为激活函数时,随着神经网络hidden layer层数的增加,训练误差反而加大了,如上图所示。 下面以2层隐藏层神经网络为例,进行说明。 结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整
阅读全文
摘要:本文参考文献: Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[J]. arXiv preprint arXiv:1705.03122, 2017. 被引次数:13 Dauphin Y
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/yjl9122/article/details/70198357 <!-- flowchart 箭头图标 勿删 --> 卷积神经网络(CNN
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/weixin_41417982/article/details/81412076 <!-- flowchart 箭头图标 勿删 --> 构建
阅读全文
摘要:深度学习小记 0 前言 近段时间,由于工作需要,一直在看深度学习的各种框架,主要是Caffe和Tensorflow。并且在可预见的未来,还会看更多不同的深度学习框架。最开始我是以软件工程师的角度去阅读这些框架的,说实话,Caffe的代码框架逻辑清晰相对好理解一点,而TensorFlow就比较麻烦了,
阅读全文
浙公网安备 33010602011771号