摘要: 梯度下降(gradient descent)?在讲解梯度下降优化算法时,首先需要了解什么是梯度下降。梯度下降是执行优化的最流行算法之一,也是迄今为止最优化神经网络的最常用方法。 同时,每个最新的深度学习库都包含各种算法的实现 ,但是,这些算法通常用作黑盒优化器,因为很难对它们的优缺点进行实用的解释。... 阅读全文
posted @ 2020-11-20 20:23 ripking 阅读(28) 评论(0) 推荐(0)
摘要: 在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文GRU结构和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少... 阅读全文
posted @ 2020-11-20 17:36 ripking 阅读(14) 评论(0) 推荐(0)
摘要: 一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。基本概念:维基百科RNN(Recurrent Neural Networks)Rnn本质是一个循环神经网络结构,将其展开,会得到一个序列结构... 阅读全文
posted @ 2020-11-20 14:11 ripking 阅读(8) 评论(0) 推荐(0)
摘要: HMM(隐含马尔可夫模型)HMM参数中文分词为例:隐藏(状态)序列:词语的词性 States = {B,M,E,S}观察序列:每个词语(小明 ,去,学校,了)状态转移矩阵A,其中第i行j列表示状态i转移到状态j的概率(转移概率)状态序列到观察序列的分布矩阵B,即每个单词为某一次性的概率(发射概率)这... 阅读全文
posted @ 2020-11-20 12:28 ripking 阅读(19) 评论(0) 推荐(0)
摘要: word2vec 与 doc2vec的区别:两者从字面意思上就可以大致判断出区别来,word2vec主要针对与单词,而doc2vec主要针对于文本:顾名思义,Word2Vec是在单个单词上训练的,而Doc2vec是在可变长度的文本上训练的,因此,每个模型可以完成的任务是不同的。使用Word2Vec,... 阅读全文
posted @ 2020-11-20 12:07 ripking 阅读(380) 评论(0) 推荐(0)