摘要: 地址:1706.03762v5.pdf (arxiv.org)abstrat作者在abstract中先是简述了一种传统的翻译模型:encoder and decoder + Attention注意力机制(回顾:Simple to seq2seq And attention | Ripshun Blo... 阅读全文
posted @ 2020-11-24 12:01 ripking 阅读(43) 评论(0) 推荐(0)
摘要: 介绍完seq2seq+attention(Simple to seq2seq And attention | Ripshun Blog),我们来构建一个用pytorch写的模型.第一步:构建Encoder:代码:class encode(nn.Module): def __init__(sel... 阅读全文
posted @ 2020-11-23 21:17 ripking 阅读(27) 评论(0) 推荐(0)
摘要: seq2seq简介Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络(递归神经网络)或更常用的LSTM、GRU网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器。 编码器将输入转换为一个隐藏状态向量,其中包含输入项的内容。 解码器进行相... 阅读全文
posted @ 2020-11-23 20:08 ripking 阅读(13) 评论(0) 推荐(0)
摘要: 准备了解fasttext需要先从其原理涉及的知识开始。N-gram和cbow(参考:Word2vec And Doc2vec – 文本向量化 | Ripshun Blog)层次softmax层次softmox(Hierarchical Softmax)在前文章中我介绍了一些关于word embedd... 阅读全文
posted @ 2020-11-23 17:48 ripking 阅读(177) 评论(0) 推荐(0)
摘要: 损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型损失函数_百度百科 (baidu.com)二... 阅读全文
posted @ 2020-11-22 15:38 ripking 阅读(87) 评论(0) 推荐(0)
摘要: 准确率,精确率与召回率定义符号:真正例(True Positive, TP):被模型预测为正的正样本;假正例(False Positive, FP):被模型预测为正的负样本;假负例(False Negative, FN):被模型预测为负的正样本;真负例(True Negative, TN):被模型预... 阅读全文
posted @ 2020-11-21 14:44 ripking 阅读(16) 评论(0) 推荐(0)
摘要: 梯度下降(gradient descent)?在讲解梯度下降优化算法时,首先需要了解什么是梯度下降。梯度下降是执行优化的最流行算法之一,也是迄今为止最优化神经网络的最常用方法。 同时,每个最新的深度学习库都包含各种算法的实现 ,但是,这些算法通常用作黑盒优化器,因为很难对它们的优缺点进行实用的解释。... 阅读全文
posted @ 2020-11-20 20:23 ripking 阅读(28) 评论(0) 推荐(0)
摘要: 在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文GRU结构和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少... 阅读全文
posted @ 2020-11-20 17:36 ripking 阅读(14) 评论(0) 推荐(0)
摘要: 一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。基本概念:维基百科RNN(Recurrent Neural Networks)Rnn本质是一个循环神经网络结构,将其展开,会得到一个序列结构... 阅读全文
posted @ 2020-11-20 14:11 ripking 阅读(8) 评论(0) 推荐(0)
摘要: HMM(隐含马尔可夫模型)HMM参数中文分词为例:隐藏(状态)序列:词语的词性 States = {B,M,E,S}观察序列:每个词语(小明 ,去,学校,了)状态转移矩阵A,其中第i行j列表示状态i转移到状态j的概率(转移概率)状态序列到观察序列的分布矩阵B,即每个单词为某一次性的概率(发射概率)这... 阅读全文
posted @ 2020-11-20 12:28 ripking 阅读(19) 评论(0) 推荐(0)