随笔分类 -  Nlp_from_0_to_1

摘要:Transformer原理 论文地址:Attention Is All You Need:https://arxiv.org/abs/1706.03762 Transformer是一种完全基于Attention机制来加速深度学习训练过程的算法模型。Transformer最大的优势在于其在并行化处理上 阅读全文
posted @ 2019-05-30 20:34 Assange 阅读(429) 评论(0) 推荐(0)
摘要:RNN提出的背景: RNN通过每层之间节点的连接结构来记忆之前的信息,并利用这些信息来影响后面节点的输出。RNN可充分挖掘序列数据中的时序信息以及语义信息,这种在处理时序数据时比全连接神经网络和CNN更具有深度表达能力,RNN已广泛应用于语音识别、语言模型、机器翻译、时序分析等各个领域。 RNN的训 阅读全文
posted @ 2019-05-26 20:49 Assange 阅读(369) 评论(0) 推荐(0)
摘要:卷积定义: 所谓卷积,其实是一种数学运算。但是在我们的学习生涯中,往往它都是披上了一层外衣,使得我们经常知其然不知其所以然。比如在信号系统中,他是以一维卷积的形式出现描述系统脉冲响应。又比如在图像处理中,他是以二维卷积的形式出现,可以对图像进行模糊处理。乍一看,两个形式风马牛不相及,但其实他们的本质 阅读全文
posted @ 2019-05-24 21:36 Assange 阅读(342) 评论(0) 推荐(0)
摘要:BP: 正向计算loss,反向传播梯度。 计算梯度时,从输出端开始,前一层的梯度等于activation' *(与之相连的后一层的神经元梯度乘上权重的和)。 几种常见的激活函数 Sigmoid. Sigmoid(也叫逻辑激活函数) 非线性激活函数的形式是,其图形如上图左所示。之前我们说过,sigmo 阅读全文
posted @ 2019-05-22 21:10 Assange 阅读(434) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/u013710265/article/details/72780520 贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) 而它其实是由以下的联合概率公式推导出来:P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y) P(X)为X的先 阅读全文
posted @ 2019-05-20 22:07 Assange 阅读(401) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/wxyangid/article/details/80209156 1.one-hot编码 中文名叫独热编码、一位有效编码。方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有其独立的寄存器位,并且任意时刻,有且仅有一个状态位是有效的。比如,手 阅读全文
posted @ 2019-05-18 21:48 Assange 阅读(528) 评论(0) 推荐(0)
摘要:参考:https://www.jianshu.com/p/f3b92124cd2b 互信息 衡量两个随机变量之间的相关性,两个随机变量相关信息的多少。 随机变量就是随机试验结果的量的表示,可以理解为按照某个概率分布进行取值的变量,比如袋子里随机抽取一个小球就是一个随机变量,互信息就是对x和y所有可能 阅读全文
posted @ 2019-05-16 19:50 Assange 阅读(297) 评论(0) 推荐(0)
摘要:参考:https://blog.csdn.net/u012052268/article/details/77825981/ 利用jieba分词工具去除停用词: 停用词:1.在SEO中为节省空间和提高搜索效率,搜索引擎会在索引页面或处理搜索请求时自动忽略某些字或词。使用广泛,甚至是用的过于频繁的词,如 阅读全文
posted @ 2019-05-14 11:18 Assange 阅读(273) 评论(0) 推荐(0)
摘要:中文数据集THUCNews:https://pan.baidu.com/s/1hugrfRu 密码:qfud 参考:https://blog.csdn.net/SMith7412/article/details/88087819 参考:https://blog.csdn.net/u011439796 阅读全文
posted @ 2019-05-12 14:44 Assange 阅读(610) 评论(0) 推荐(0)