深度学习 - 随笔分类(第2页) - 下路派出所

transformer 源码

摘要：训练时： 1. 输入正确标签一次性解码出来预测时： 1. 第一次输入1个词，解码出一个词第二次输入第一次输入的词和第一次解码出来词一起，解码出来第3个词，这样依次解码，解码到最长的长度或者<pad>。就结束。训练时，全部输入与预测时一个一个输入是一样的 1. 需要传入词向量 2.positio 阅读全文

posted @ 2019-02-25 14:30 下路派出所阅读(1122) 评论(0) 推荐(0)

tf.estimator.Estimator

摘要：1.定义 2.定义model_fn: 2.使用estimator.predict 1 阅读全文

posted @ 2019-01-03 18:04 下路派出所阅读(3399) 评论(0) 推荐(0)

tensorflow 滑动平均使用和恢复

摘要：https://www.cnblogs.com/hrlnw/p/8067214.html 阅读全文

posted @ 2018-12-27 15:37 下路派出所阅读(241) 评论(0) 推荐(0)

tf.data

摘要：以往的TensorFLow模型数据的导入方法可以分为两个主要方法，一种是使用feed_dict另外一种是使用TensorFlow中的Queues。前者使用起来比较灵活，可以利用Python处理各种输入数据，劣势也比较明显，就是程序运行效率较低；后面一种方法的效率较高，但是使用起来较为复杂，灵活性较差阅读全文

posted @ 2018-12-24 17:27 下路派出所阅读(567) 评论(0) 推荐(0)

tensorflow VocabularyProcessor

摘要：VocabularyProcessor：类似于keras里面的那个padding，将词映射到词向量词字典的id上阅读全文

posted @ 2018-12-23 11:42 下路派出所阅读(687) 评论(0) 推荐(0)

Transformer 论文阅读

摘要：直观理解与模型整体结构先来看一个翻译的例子“I arrived at the bank after crossing the river” 这里面的bank指的是银行还是河岸呢，这就需要我们联系上下文，当我们看到river之后就应该知道这里bank很大概率指的是河岸。在RNN中我们就需要一步步的顺阅读全文

posted @ 2018-12-19 12:00 下路派出所阅读(674) 评论(0) 推荐(0)

jieba分词加入特殊字符和空格

摘要：将自定义用户词典加入的词与词性中间的空格更改为@@ 1.原来：牵连关系 50 n 2.现在：牵连关系@@50@@n 更改jieba根目录下的__init__.py文件下代码: 1.原来：re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', r 阅读全文

posted @ 2018-12-10 17:46 下路派出所阅读(3623) 评论(1) 推荐(1)

Word2vec 理解

摘要：1.有DNN做的word2vec，取隐藏层到softmax层的权重为词向量，softmax层的叶子节点数为词汇表大小 2.霍夫曼树：左边走 sigmoid(当前节点的词向量*当前节点的参数) 右边走 1-sigmoid(当前节点的词向量*当前节点的参数)，叶子节点为词汇表所有词，然后求根节点到叶子节阅读全文

posted @ 2018-10-25 18:11 下路派出所阅读(262) 评论(0) 推荐(0)

seq2seq attention

摘要：1.seq2seq：分为encoder和decoder a.在decoder中，第一时刻输入的是上encoder最后一时刻的状态，如果用了双向的rnn，那么一般使用逆序的最后一个时刻的输出（网上说实验结果比较好） b.每一时刻都有一个输出，即：[batch_size, decoder_output_ 阅读全文

posted @ 2018-10-21 23:51 下路派出所阅读(968) 评论(0) 推荐(0)

深度学习模型参数初始化的方法

摘要：（1）Gaussian 满足mean=0，std=1的高斯分布x∼N(mean，std2) （2）Xavier 满足x∼U(−a,+a)x∼U(−a,+a)的均匀分布，其中 a = sqrt(3/n) （3）MSRA 满足x∼N(0,σ2)x∼N(0,σ2)的高斯分布，其中σ = sqrt(2/n 阅读全文

posted @ 2018-09-27 17:59 下路派出所阅读(1996) 评论(0) 推荐(0)

NLP 装桶（Bucketing）和填充（padding）

摘要：翻译模型也是用了装桶（bucketing）和填充（padding），这两种方法是用于高效地处理不同长度句子的情况。我们首先来弄清楚是怎么一回事。当我们从英语翻译成法语的时候，假设我们的输入英语的长度为L1，输出法语的长度为L2。因为英语句子是作为encoder_inputs而传入的，法语句子作为de 阅读全文

posted @ 2018-09-20 15:53 下路派出所阅读(3114) 评论(0) 推荐(1)

facebook 摘要生成阅读笔记（二） Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

摘要：整体流程与第一篇差不多，只是在encoder和decoder加入了RNN Encoder: 1. ai=xi+li ai=词向量+词在序列中的位置信息（相当于一个权重，[M, 1]）流程：先是CNN获取位置信息，然后再加上词向量，然后再通过LSTM 2. 常见的求注意力权重的方法 a. ht-1 阅读全文

posted @ 2018-09-17 15:29 下路派出所阅读(945) 评论(0) 推荐(0)

facebook 摘要生成阅读笔记（一） A Neural Attention Model for Sentence Summarization

摘要：流程： 1.文本和摘要全部输入到模型中。 2.训练时，对生成摘要取前C个词，从头开始取，如果生成的摘要不足C，那么不足的地方直接补<s>。 3.训练时，最大化生成的摘要与原摘要的概率，即每个生成的词与原摘要的词进行对比，用损失函数计算梯度，然后下降。 4.预测时，已经具有了权重的模型，会逐词生成N个阅读全文

posted @ 2018-09-17 11:21 下路派出所阅读(304) 评论(0) 推荐(0)

n-grama

摘要：一、N-Gram的原理(这个词出现在句子中出现的概率) N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。（这也是隐马尔可夫当中的假设。）整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3...w 阅读全文

posted @ 2018-09-03 20:38 下路派出所阅读(256) 评论(0) 推荐(0)

tensorflow summary

摘要：定义summary 1.scalar存储结果 a.先在训练的循环外定义: b.在session run的时候run test_scalar，获得值，然后再添加。 2.histogram存储权重，偏执。 a.先在训练的循环外定义: b.在session run的时候run test_scalar，获得阅读全文

posted @ 2018-08-28 18:11 下路派出所阅读(211) 评论(0) 推荐(0)

GRU

摘要：GRU模型（比LSTM减少了计算量） LSTM的模型，LSTM的重复网络模块的结构很复杂，它实现了三个门计算，即遗忘门、输入门和输出门。而GRU模型如下，它只有两个门了，分别为更新门和重置门，即图中的Zt和Rt。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的阅读全文

posted @ 2018-05-30 14:39 下路派出所阅读(346) 评论(0) 推荐(0)

Tensorflow 方法记录

摘要：1.tf.convert_to_tensor:传入的list必须是一个有固定长度的list，如果为2维的list，第二维的list的长度必须是固定。 2.tf.layers.conv1d(),默认宽卷积，里面的参数filter_size，为卷积核的height，而卷积核的width为输入的width 阅读全文

posted @ 2018-05-23 11:12 下路派出所阅读(367) 评论(0) 推荐(0)

LSTM

摘要：LSTM 网络 Long Short Term 网络—— 一般就叫做 LSTM ——是一种 RNN 特殊的类型，可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber (1997)提出，并在近期被Alex Graves进行了改良和推广。在很多问题，LSTM 都取得相当巨大阅读全文

posted @ 2018-05-20 23:17 下路派出所阅读(263) 评论(0) 推荐(0)

词向量降维

摘要：将词向量转换为一个2维的向量阅读全文

posted @ 2018-05-14 22:25 下路派出所阅读(856) 评论(0) 推荐(0)

各个激活函数对比

摘要：1. sigmod函数函数公式和图表如下图在sigmod函数中我们可以看到，其输出是在(0,1)这个开区间内，这点很有意思，可以联想到概率，但是严格意义上讲，不要当成概率。sigmod函数曾经是比较流行的，它可以想象成一个神经元的放电率，在中间斜率比较大的地方是神经元的敏感区，在两边斜率很平缓的阅读全文

posted @ 2018-05-09 21:49 下路派出所阅读(415) 评论(0) 推荐(0)

下路派出所

随笔分类 - 深度学习

公告