摘要:
梯度下降(gradient descent)?在讲解梯度下降优化算法时,首先需要了解什么是梯度下降。梯度下降是执行优化的最流行算法之一,也是迄今为止最优化神经网络的最常用方法。 同时,每个最新的深度学习库都包含各种算法的实现 ,但是,这些算法通常用作黑盒优化器,因为很难对它们的优缺点进行实用的解释。... 阅读全文
posted @ 2020-11-20 20:23
ripking
阅读(28)
评论(0)
推荐(0)
摘要:
在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文GRU结构和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少... 阅读全文
posted @ 2020-11-20 17:36
ripking
阅读(14)
评论(0)
推荐(0)
摘要:
一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。基本概念:维基百科RNN(Recurrent Neural Networks)Rnn本质是一个循环神经网络结构,将其展开,会得到一个序列结构... 阅读全文
posted @ 2020-11-20 14:11
ripking
阅读(8)
评论(0)
推荐(0)
摘要:
HMM(隐含马尔可夫模型)HMM参数中文分词为例:隐藏(状态)序列:词语的词性 States = {B,M,E,S}观察序列:每个词语(小明 ,去,学校,了)状态转移矩阵A,其中第i行j列表示状态i转移到状态j的概率(转移概率)状态序列到观察序列的分布矩阵B,即每个单词为某一次性的概率(发射概率)这... 阅读全文
posted @ 2020-11-20 12:28
ripking
阅读(19)
评论(0)
推荐(0)
摘要:
word2vec 与 doc2vec的区别:两者从字面意思上就可以大致判断出区别来,word2vec主要针对与单词,而doc2vec主要针对于文本:顾名思义,Word2Vec是在单个单词上训练的,而Doc2vec是在可变长度的文本上训练的,因此,每个模型可以完成的任务是不同的。使用Word2Vec,... 阅读全文
posted @ 2020-11-20 12:07
ripking
阅读(380)
评论(0)
推荐(0)

浙公网安备 33010602011771号