随笔分类 -  深度学习

摘要:https://zhuanlan.zhihu.com/p/35356992 阅读全文
posted @ 2019-12-17 14:35 下路派出所 阅读(370) 评论(0) 推荐(0) 编辑
摘要:熵 考虑另一个问题,对于某个事件,有n种可能性,每一种可能性都有一个概率p(xi)这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量 序号事件概率p信息量I A 电脑正常开机 0.7 -log(p(A))=0. 阅读全文
posted @ 2019-12-02 17:00 下路派出所 阅读(254) 评论(0) 推荐(0) 编辑
摘要:在使用tf.train.Saver函数保存模型文件的时候,是保存所有的参数信息,而有些时候我们并不需要所有的参数信息。我们只需要知道神经网络的输入层经过前向传播计算得到输出层即可,所以在保存的时候,我们也不需要保存所有的参数,以及变量的初始化、模型保存等辅助节点信息与迁移学习类似。之前使用tf.tr 阅读全文
posted @ 2019-09-09 10:27 下路派出所 阅读(2350) 评论(0) 推荐(0) 编辑
摘要:在QAnet最后的三个encoder中,各项参数为,其中hidden size为context_query输出的hidden size 阅读全文
posted @ 2019-09-05 10:43 下路派出所 阅读(252) 评论(0) 推荐(0) 编辑
摘要:熵和自信息 1. 自信息I(x)是变量X=x时的信息量或编码长度 \[I(x) = - \log (p(x))\] 2. 熵是用来衡量一个随机事件的不确定性 3. 熵是一个随机变量的平均编码长度,即自信息的数学期望(均值)。熵越高,则随机变量的信息越多;熵越低,则信息越少。 互信息 1. 互信息是衡 阅读全文
posted @ 2019-08-06 16:58 下路派出所 阅读(581) 评论(0) 推荐(0) 编辑
摘要:这份代码来自于苏剑林 阅读全文
posted @ 2019-08-02 16:44 下路派出所 阅读(1191) 评论(0) 推荐(0) 编辑
摘要:逐帧softmax CRF主要用于序列标注问题,可以简单理解为是给序列中的每一帧都进行分类,既然是分类,很自然想到将这个序列用CNN或者RNN进行编码后,接一个全连接层用softmax激活,如下图所示 条件随机场 然而,当我们设计标签时,比如用s、b、m、e的4个标签来做字标注法的分词,目标输出序列 阅读全文
posted @ 2019-08-01 18:06 下路派出所 阅读(5933) 评论(0) 推荐(2) 编辑
摘要:Seq2seq Attention Normal Attention 1. 在decoder端,encoder state要进行一个线性变换,得到r1,可以用全连接,可以用conv,取决于自己,这里不需要加激活函数。 2. decoder端t时刻的输入和上一时刻的context vector(相当于 阅读全文
posted @ 2019-07-29 09:54 下路派出所 阅读(1542) 评论(0) 推荐(0) 编辑
摘要:def noam_scheme(global_step, num_warmup_steps, num_train_steps, init_lr, warmup=True): """ decay learning rate if warmup > global step, the learning rate will be global_step/num_warmup_st... 阅读全文
posted @ 2019-07-22 16:53 下路派出所 阅读(2510) 评论(0) 推荐(0) 编辑
摘要:本质上讲,Focal Loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss,总之这个工作一片好评就是了。 看到这个 loss,开始感觉很神奇,感觉大有用途。因为在 NLP 中,也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的,比如在命名实体识别中,显然一 阅读全文
posted @ 2019-07-18 14:59 下路派出所 阅读(9603) 评论(0) 推荐(0) 编辑
摘要:def focal_loss(pred, y, alpha=0.25, gamma=2): r"""Compute focal loss for predictions. Multi-labels Focal loss formula: FL = -alpha * (z-p)^gamma * log(p) -(1-a... 阅读全文
posted @ 2019-07-11 10:43 下路派出所 阅读(3308) 评论(0) 推荐(0) 编辑
摘要:tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) 功能:基于定义的min与max对tesor数据进行截断操作,目的是为了应对梯度爆发或者梯度消失的情况 阅读全文
posted @ 2019-07-05 10:27 下路派出所 阅读(868) 评论(0) 推荐(0) 编辑
摘要:在图像分割领域,图像输入到CNN,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测 阅读全文
posted @ 2019-07-01 16:14 下路派出所 阅读(4007) 评论(0) 推荐(0) 编辑
摘要:架构总览 模型的整体架构源于 WebQA 的参考论文 Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question [2]。这篇论文有几个特点: 1. 直接将问题用 LSTM 编码后得到“问 阅读全文
posted @ 2019-06-30 22:14 下路派出所 阅读(1915) 评论(0) 推荐(0) 编辑
摘要:1. 为什么需要normalization 1.1 独立同分布与白化 机器学习界的炼丹师们最喜欢的数据有什么特点?窃以为,莫过于“独立同分布”了,即independent and identically distributed,简称为 i.i.d. 独立同分布并非所有机器学习模型的必然要求(比如 N 阅读全文
posted @ 2019-06-29 23:25 下路派出所 阅读(2603) 评论(0) 推荐(0) 编辑
摘要:Session概述 1. Session是TensorFlow前后端连接的桥梁。用户利用session使得client能够与master的执行引擎建立连接,并通过session.run()来触发一次计算。它建立了一套上下文环境,封装了operation计算以及tensor求值的环境。 2. sess 阅读全文
posted @ 2019-06-24 18:08 下路派出所 阅读(809) 评论(0) 推荐(0) 编辑
摘要:TensorFlow系统架构 TensorFlow设计十分精巧,基于分层和模块化的设计思想进行开发的。框架如下图 整个框架以C API为界,分为前端和后端两大部分。 模型构造和执行流程 TensorFlow的一大特点是,图的构造和执行相分离。用户添加完算子,构建好整图后,才开始进行训练和执行,也就是 阅读全文
posted @ 2019-06-24 15:30 下路派出所 阅读(2267) 评论(0) 推荐(0) 编辑
摘要:gvs = optimizer.compute_gradients(loss) # 计算出梯度和变量值 capped_gvs = [(tf.clip_by_value(grad, -5e+10, 5e+10), var) for grad, var in gvs] # 梯度裁剪 train_op = optimizer.apply_gradients(capped_gvs, global_ste... 阅读全文
posted @ 2019-05-06 14:07 下路派出所 阅读(1285) 评论(0) 推荐(0) 编辑
摘要:Adam 方法 Adam 方法将惯性保持和环境感知这两个优点集于一身。一方面, Adam 记录梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,这体现了惯性保持;另一方面,Adam 还记录梯度的二阶矩(second moment),即过往梯度平方与当前梯度平方的平均,这类似Ada 阅读全文
posted @ 2019-03-10 21:44 下路派出所 阅读(290) 评论(0) 推荐(0) 编辑
摘要:with tf.gfile.GFile(os.path.join(self.model_dir, 'ner_model.pb'), 'rb') as f: graph_def = self.tf.GraphDef() graph_def.ParseFromString(f.read()) input_map = {"input_ids:0": self.inp... 阅读全文
posted @ 2019-03-04 17:05 下路派出所 阅读(1613) 评论(0) 推荐(0) 编辑