打赏

随笔分类 -  算法模型

摘要:1.现状 Transformer模型目前被广泛应用,但目前存在以下几个问题: (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析 层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4 阅读全文
posted @ 2020-07-01 23:09 listenviolet 阅读(756) 评论(0) 推荐(0)
摘要:1. Overview Adaptive softmax算法在链接1中的论文中提出,该算法目的是为了提高softmax函数的运算效率,适用于一些具有非常大词汇量的神经网络。 在NLP的大部分任务中,都会用到softmax,但是对于词汇量非常大的任务,每次进行完全的softmax会有非常大的计算量,很 阅读全文
posted @ 2019-11-22 19:38 listenviolet 阅读(1779) 评论(0) 推荐(0)
摘要:1. Motivation 在Transformer-XL中,由于设计了segments,如果仍采用transformer模型中的绝对位置编码的话,将不能区分处不同segments内同样相对位置的词的先后顺序。 比如对于$segment_i$的第k个token,和$segment_j$的第k个tok 阅读全文
posted @ 2019-07-26 19:51 listenviolet 阅读(19077) 评论(2) 推荐(5)
摘要:1. Overview 本文将CNN用于句子分类任务 (1) 使用静态vector + CNN即可取得很好的效果;=> 这表明预训练的vector是universal的特征提取器,可以被用于多种分类任务中。 (2) 根据特定任务进行fine-tuning 的vector + CNN 取得了更好的效果 阅读全文
posted @ 2019-07-18 22:36 listenviolet 阅读(1183) 评论(0) 推荐(0)
摘要:对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了相对位置编码,就是本篇blog所介绍的算法RPR;2019年的Transformer-XL针对其se 阅读全文
posted @ 2019-07-14 20:49 listenviolet 阅读(13353) 评论(0) 推荐(4)
摘要:CS224N Assignment 1: Exploring Word Vectors (25 Points)¶ Welcome to CS224n! Before you start, make sure you read the README.txt in the same directory 阅读全文
posted @ 2019-07-05 10:53 listenviolet 阅读(11338) 评论(0) 推荐(2)
摘要:(转载请注明出处哦~) 参考链接: 1. 误差函数的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0 2. 正态分布的博客:https://blog.csdn.net/hhaowang/article/ 阅读全文
posted @ 2019-07-02 17:12 listenviolet 阅读(14536) 评论(3) 推荐(8)
摘要:参考链接: 1. https://medium.com/@cwchang/gradient-boosting-%E7%B0%A1%E4%BB%8B-f3a578ae7205 2. https://zhuanlan.zhihu.com/p/38329631 3. StatQuest with Josh 阅读全文
posted @ 2019-06-09 09:30 listenviolet 阅读(1055) 评论(0) 推荐(0)
摘要:1. RuntimeError: "exp" not implemented for 'torch.LongTensor' class PositionalEncoding(nn.Module) 将 “0” 改为 “0.” 否则会报错:RuntimeError: "exp" not implemen 阅读全文
posted @ 2019-05-22 22:31 listenviolet 阅读(6448) 评论(16) 推荐(1)
摘要:https://blog.csdn.net/liuxiao214/article/details/81037416 http://www.dataguru.cn/article-13032-1.html 1. BatchNormalization 实现时,对axis = 0维度求均值和方差 -> 对 阅读全文
posted @ 2019-05-07 10:39 listenviolet 阅读(2518) 评论(1) 推荐(0)
摘要:Abstract 1 问题 Internal Covariate Shift: 训练神经网络主要就是让各个层学习训练数据的分布。在深度神经网络的训练过程中,之前层(之前的任何一层)的参数的发生变化,那么前一层的输出数据分布也会发生变化,也即当前层的输入数据分布会发生变化。由于网络层的输入数据的分布本 阅读全文
posted @ 2019-05-07 09:42 listenviolet 阅读(1047) 评论(0) 推荐(0)
摘要:参考链接: 拉格朗日乘子法和KKT条件 SVM为什么要从原始问题变为对偶问题来求解 为什么要用对偶问题 写在SVM之前——凸优化与对偶问题 1. 拉格朗日乘子法与KKT条件 2. SVM 为什么要从原始问题变为对偶问题来求解 1. 首先是我们有不等式约束方程,这就需要我们写成min max的形式来得 阅读全文
posted @ 2019-03-22 19:48 listenviolet 阅读(2539) 评论(2) 推荐(0)
摘要:参考链接:http://baijiahao.baidu.com/s?id=1603857666277651546&wfr=spider&for=pc 1. 平方损失函数:MSE- L2 Loss $$MSE = \sum_{i = 1}^n (y_i - \hat{y_i})^2 \tag1$$ 平 阅读全文
posted @ 2019-03-18 21:02 listenviolet 阅读(4621) 评论(0) 推荐(1)
摘要:原创作品,转载请注明出处哦~ RNN: Feed Forward, Back Propagation Through Time and Truncated Backpropagation Through Time 了解RNN的前向、后向传播算法的推导原理是非常重要的,这样, 1. 才会选择正确的激活 阅读全文
posted @ 2019-03-16 16:01 listenviolet 阅读(5167) 评论(0) 推荐(0)
摘要:(原创文章,转载请注明出处哦~) 简单介绍CTC算法 CTC是序列标注问题中的一种损失函数。 传统序列标注算法需要每一时刻输入与输出符号完全对齐。而CTC扩展了标签集合,添加空元素。 在使用扩展标签集合对序列进行标注后,所有可以通过映射函数转换为真实序列的 预测序列,都是正确的预测结果。也就是在无需 阅读全文
posted @ 2019-03-07 23:28 listenviolet 阅读(17472) 评论(4) 推荐(6)
摘要:原创文章~转载请注明出处哦。其他部分内容参见以下链接~ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(四) - models.py 1. class MeanAggrega 阅读全文
posted @ 2018-11-11 08:38 listenviolet 阅读(3200) 评论(2) 推荐(0)
摘要:原创文章~转载请注明出处哦。其他部分内容参见以下链接~ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(三) - aggregators.py 1. 类及其继承关系 首先看M 阅读全文
posted @ 2018-11-11 08:38 listenviolet 阅读(6599) 评论(4) 推荐(1)
摘要:class EdgeMinibatchIterator def __init__(self, G, id2idx, placeholders, context_pairs=None, batch_size=100, max_degree=25, n2v_retrain=False, fixed_n2 阅读全文
posted @ 2018-11-03 22:41 listenviolet 阅读(2938) 评论(0) 推荐(0)
摘要:原创文章~转载请注明出处哦。其他部分内容参见以下链接~ GraphSAGE 代码解析(一) - unsupervised_train.py GraphSAGE 代码解析(三) - aggregators.py GraphSAGE 代码解析(四) - models.py 这里_LAYER_UIDS = 阅读全文
posted @ 2018-11-02 10:53 listenviolet 阅读(3270) 评论(0) 推荐(0)
摘要:原创文章~转载请注明出处哦。其他部分内容参见以下链接~ GraphSAGE 代码解析(二) - layers.py GraphSAGE 代码解析(三) - aggregators.py GraphSAGE 代码解析(四) - models.py GraphSAGE代码详解 example_data: 阅读全文
posted @ 2018-10-25 08:36 listenviolet 阅读(13686) 评论(20) 推荐(1)