随笔分类 -  深度学习

摘要:参考链接:https://blog.csdn.net/yanqianglifei/article/details/82885477 https://blog.csdn.net/qq_37053885/article/details/79325892 阅读全文
posted @ 2019-04-01 11:46 光彩照人 阅读(2350) 评论(0) 推荐(0)
摘要:一、产生原因 假设我们使用的激活函数为sigmoid函数。其导数为g(x)*(1-g(x)),图像如下: 也就是sigmoid函数导数最大值为0.25。 当我们根据链式法则进行反向求导的时候,公式最终是权重和sigmoid导数的连乘形式,如下: 如果使用一个均值0标准差为1的高斯分布来初始化权值,所 阅读全文
posted @ 2019-03-05 16:43 光彩照人
摘要:BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning),适用于广泛任务的最先进模型的构建,比如问答任务和 阅读全文
posted @ 2018-12-19 15:32 光彩照人 阅读(5884) 评论(0) 推荐(1)
摘要:一、背景 1)梯度消失问题 我们发现很深的网络层,由于参数初始化一般更靠近0,这样在训练的过程中更新浅层网络的参数时,很容易随着网络的深入而导致梯度消失,浅层的参数无法更新。 可以看到,假设现在需要更新b1,w2,w3,w4参数因为随机初始化偏向于0,通过链式求导我们会发现,w1w2w3相乘会得到更 阅读全文
posted @ 2018-12-16 19:44 光彩照人 阅读(34113) 评论(0) 推荐(5)
摘要:一、背景 自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型。传统的基于RNN的Seq2Seq模型难以处理长序列的句子,无法实现并行,并且面临对齐的问题。 所以之后这类模型的 阅读全文
posted @ 2018-12-13 15:01 光彩照人 阅读(3956) 评论(0) 推荐(0)
摘要:如图上的参数个数为:3*3*3*2,第一个三为输入层3,后面3*3位卷积尺寸,最后一个2为卷积核的个数 1的计算过程: 第一个通道和对应权重的结果:0*1+0*1+0*(-1)+0*(-1)+0*0+1*1+0*(-1)+0*(-1)+1*0 = 1 第二个通道和对应权重的结果:0*(-1)+0*0 阅读全文
posted @ 2018-10-12 17:48 光彩照人 阅读(362) 评论(0) 推荐(0)
摘要:来源:http://blog.csdn.net/ice_actor/article/details/78603042 1.什么是人脸识别 这部分演示了百度总部大楼的人脸识别系统,员工刷脸进出办公区,在这个演示中主要应用到了人脸识别技术和活体检测。 人脸识别的术语: 1)face verificati 阅读全文
posted @ 2018-02-07 10:18 光彩照人 阅读(2190) 评论(0) 推荐(0)
摘要:一、Sigmoid函数 1)表达式 2)函数曲线 3)函数缺点 梯度饱和问题。先看一下反向传播计算过程: 反向求导: 而其中: 所以,由上述反向传播公式可以看出,当神经元数值无线接近1或者0的时候,在反向传播计算过程中,梯度也几乎为0,就导致模型参数几乎不更新了,对模型的学习贡献也几乎为零。也称为参 阅读全文
posted @ 2017-09-14 15:00 光彩照人 阅读(861) 评论(0) 推荐(0)
摘要:说到神经网络,大家看到这个图应该不陌生: 这是典型的三层神经网络的基本构成,Layer L1是输入层,Layer L2是隐含层,Layer L3是隐含层,我们现在手里有一堆数据{x1,x2,x3,...,xn},输出也是一堆数据{y1,y2,y3,...,yn},现在要他们在隐含层做某种变换,让你把 阅读全文
posted @ 2017-09-10 09:57 光彩照人 阅读(1488) 评论(0) 推荐(0)