算法模型 - 随笔分类 - listenviolet

[NLP] Reformer: The Efficient Transformer

摘要：1.现状 Transformer模型目前被广泛应用，但目前存在以下几个问题： (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4 阅读全文

posted @ 2020-07-01 23:09 listenviolet 阅读(756) 评论(0) 推荐(0)

[NLP] Adaptive Softmax

摘要：1. Overview Adaptive softmax算法在链接1中的论文中提出，该算法目的是为了提高softmax函数的运算效率，适用于一些具有非常大词汇量的神经网络。在NLP的大部分任务中，都会用到softmax,但是对于词汇量非常大的任务，每次进行完全的softmax会有非常大的计算量，很阅读全文

posted @ 2019-11-22 19:38 listenviolet 阅读(1779) 评论(0) 推荐(0)

[NLP] 相对位置编码(二) Relative Positional Encodings - Transformer-XL

摘要：1. Motivation 在Transformer-XL中，由于设计了segments，如果仍采用transformer模型中的绝对位置编码的话，将不能区分处不同segments内同样相对位置的词的先后顺序。比如对于$segment_i$的第k个token，和$segment_j$的第k个tok 阅读全文

posted @ 2019-07-26 19:51 listenviolet 阅读(19077) 评论(2) 推荐(5)

[NLP-CNN] Convolutional Neural Networks for Sentence Classification -2014-EMNLP

摘要：1. Overview 本文将CNN用于句子分类任务 (1) 使用静态vector + CNN即可取得很好的效果；=> 这表明预训练的vector是universal的特征提取器，可以被用于多种分类任务中。 (2) 根据特定任务进行fine-tuning 的vector + CNN 取得了更好的效果阅读全文

posted @ 2019-07-18 22:36 listenviolet 阅读(1183) 评论(0) 推荐(0)

[NLP] 相对位置编码(一) Relative Position Representatitons (RPR) - Transformer

摘要：对于Transformer模型的positional encoding，最初在Attention is all you need的文章中提出的是进行绝对位置编码，之后Shaw在2018年的文章中提出了相对位置编码，就是本篇blog所介绍的算法RPR；2019年的Transformer-XL针对其se 阅读全文

posted @ 2019-07-14 20:49 listenviolet 阅读(13353) 评论(0) 推荐(4)

[NLP] cs224n-2019 Assignment 1 Exploring Word Vectors

摘要：CS224N Assignment 1: Exploring Word Vectors (25 Points)¶ Welcome to CS224n! Before you start, make sure you read the README.txt in the same directory 阅读全文

posted @ 2019-07-05 10:53 listenviolet 阅读(11338) 评论(0) 推荐(2)

[Deep Learning] GELU (Gaussian Error Linerar Units)

摘要：(转载请注明出处哦~) 参考链接： 1. 误差函数的wiki百科：https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0 2. 正态分布的博客：https://blog.csdn.net/hhaowang/article/ 阅读全文

posted @ 2019-07-02 17:12 listenviolet 阅读(14536) 评论(3) 推荐(8)

[ML] Gradient Boost

摘要：参考链接： 1. https://medium.com/@cwchang/gradient-boosting-%E7%B0%A1%E4%BB%8B-f3a578ae7205 2. https://zhuanlan.zhihu.com/p/38329631 3. StatQuest with Josh 阅读全文

posted @ 2019-06-09 09:30 listenviolet 阅读(1055) 评论(0) 推荐(0)

[NLP] The Annotated Transformer 代码修正

摘要：1. RuntimeError: "exp" not implemented for 'torch.LongTensor' class PositionalEncoding(nn.Module) 将 “0” 改为 “0.” 否则会报错：RuntimeError: "exp" not implemen 阅读全文

posted @ 2019-05-22 22:31 listenviolet 阅读(6448) 评论(16) 推荐(1)

BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结

摘要：https://blog.csdn.net/liuxiao214/article/details/81037416 http://www.dataguru.cn/article-13032-1.html 1. BatchNormalization 实现时，对axis = 0维度求均值和方差 -> 对阅读全文

posted @ 2019-05-07 10:39 listenviolet 阅读(2518) 评论(1) 推荐(0)

Batch Normalization

摘要：Abstract 1 问题 Internal Covariate Shift: 训练神经网络主要就是让各个层学习训练数据的分布。在深度神经网络的训练过程中，之前层(之前的任何一层)的参数的发生变化，那么前一层的输出数据分布也会发生变化，也即当前层的输入数据分布会发生变化。由于网络层的输入数据的分布本阅读全文

posted @ 2019-05-07 09:42 listenviolet 阅读(1047) 评论(0) 推荐(0)

拉格朗日乘子法与KKT条件 && SVM中为什么要用对偶问题

摘要：参考链接：拉格朗日乘子法和KKT条件 SVM为什么要从原始问题变为对偶问题来求解为什么要用对偶问题写在SVM之前——凸优化与对偶问题 1. 拉格朗日乘子法与KKT条件 2. SVM 为什么要从原始问题变为对偶问题来求解 1. 首先是我们有不等式约束方程，这就需要我们写成min max的形式来得阅读全文

posted @ 2019-03-22 19:48 listenviolet 阅读(2539) 评论(2) 推荐(0)

机器学习中的损失函数(二) 回归问题的损失函数

摘要：参考链接：http://baijiahao.baidu.com/s?id=1603857666277651546&wfr=spider&for=pc 1. 平方损失函数：MSE- L2 Loss $$MSE = \sum_{i = 1}^n (y_i - \hat{y_i})^2 \tag1$$ 平阅读全文

posted @ 2019-03-18 21:02 listenviolet 阅读(4621) 评论(0) 推荐(1)

[NLP] RNN 前向传播、延时间反向传播 BPTT 、延时间截断反向传播 TBTT

摘要：原创作品，转载请注明出处哦~ RNN: Feed Forward, Back Propagation Through Time and Truncated Backpropagation Through Time 了解RNN的前向、后向传播算法的推导原理是非常重要的，这样， 1. 才会选择正确的激活阅读全文

posted @ 2019-03-16 16:01 listenviolet 阅读(5167) 评论(0) 推荐(0)

CTC (Connectionist Temporal Classification) 算法原理

摘要：(原创文章，转载请注明出处哦~) 简单介绍CTC算法 CTC是序列标注问题中的一种损失函数。传统序列标注算法需要每一时刻输入与输出符号完全对齐。而CTC扩展了标签集合，添加空元素。在使用扩展标签集合对序列进行标注后，所有可以通过映射函数转换为真实序列的预测序列，都是正确的预测结果。也就是在无需阅读全文

posted @ 2019-03-07 23:28 listenviolet 阅读(17472) 评论(4) 推荐(6)

GraphSAGE 代码解析(三) - aggregators.py

摘要：原创文章～转载请注明出处哦。其他部分内容参见以下链接～ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(四) - models.py 1. class MeanAggrega 阅读全文

posted @ 2018-11-11 08:38 listenviolet 阅读(3200) 评论(2) 推荐(0)

GraphSAGE 代码解析(四) - models.py

摘要：原创文章～转载请注明出处哦。其他部分内容参见以下链接～ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(三) - aggregators.py 1. 类及其继承关系首先看M 阅读全文

posted @ 2018-11-11 08:38 listenviolet 阅读(6599) 评论(4) 推荐(1)

GraphSAGE 代码解析 - minibatch.py

摘要：class EdgeMinibatchIterator def __init__(self, G, id2idx, placeholders, context_pairs=None, batch_size=100, max_degree=25, n2v_retrain=False, fixed_n2 阅读全文

posted @ 2018-11-03 22:41 listenviolet 阅读(2938) 评论(0) 推荐(0)

GraphSAGE 代码解析(二) - layers.py

摘要：原创文章～转载请注明出处哦。其他部分内容参见以下链接～ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(三) - aggregators.py GraphSAGE 代码解析(四) - models.py 这里_LAYER_UIDS = 阅读全文

posted @ 2018-11-02 10:53 listenviolet 阅读(3270) 评论(0) 推荐(0)

GraphSAGE 代码解析(一) - unsupervised_train.py

摘要：原创文章～转载请注明出处哦。其他部分内容参见以下链接～ GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(三) - aggregators.py GraphSAGE 代码解析(四) - models.py GraphSAGE代码详解 example_data: 阅读全文

posted @ 2018-10-25 08:36 listenviolet 阅读(13686) 评论(20) 推荐(1)

认真积累每一天

随笔分类 - 算法模型

公告