随笔分类 - NLP
摘要:1.现状 Transformer模型目前被广泛应用,但目前存在以下几个问题: (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析 层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4
阅读全文
摘要:转载:https://blog.csdn.net/joylnwang/article/details/6801720 1. 算法原理 提到多模式匹配算法,就得说一下Wu-Manber算法,其在多模式匹配领域相较于Aho-Corasick算法,就好象在单模式匹配算法中BM算法相较于KMP算法一样,在绝
阅读全文
摘要:转自:https://www.cnblogs.com/zhangtianq/p/5839909.html 1. 算法 KMP算法和BM算法,这两个算法在最坏情况下均具有线性的查找时间。但实际上,KMP算法并不比最简单的c库函数strstr()快多少,而BM算法虽然通常比KMP算法快,但BM算法也还不
阅读全文
摘要:1. 简介 AC自动机是一种多模匹配的文本匹配算法。 如果采用naive的方法,即依次比较文本串s中是否包含模式串p1, p2,...非常耗时。考虑到这些模式串中可能具有相同子串,可以利用已经比较过的那些模式串的一些信息,来优化效率。容易想到的一种方法是为这些模式串构建一个trie树,可以较好的利用
阅读全文
摘要:实际场景: 网站的用户发了一些帖子S1, S2,...,网站就要审核一下这些帖子里有没有敏感词。 1. 如果网站想查一下帖子里有没有一个敏感词P,这个文本匹配要怎么做更快? 2. 如果网站想查一下帖子里有没有敏感词P1, P2,...,这个文本匹配要怎么做更快? 单模匹配与多模匹配 从以上的实际场景
阅读全文
摘要:1. 暴力求解 如下图所示。蓝色的小三角表示和sequence比较时的开始字符,绿色小三角表示失败后模式串比对的开始字符,红色框表示当前比较的字符对。 当和模式串发生不匹配时,蓝色小三角后移一位,绿色小三角移到模式串的第0位。 如果sequence长度为m, pattern长度为n,暴力求解的时间复
阅读全文
摘要:1. Overview Adaptive softmax算法在链接1中的论文中提出,该算法目的是为了提高softmax函数的运算效率,适用于一些具有非常大词汇量的神经网络。 在NLP的大部分任务中,都会用到softmax,但是对于词汇量非常大的任务,每次进行完全的softmax会有非常大的计算量,很
阅读全文
摘要:1. Motivation 在Transformer-XL中,由于设计了segments,如果仍采用transformer模型中的绝对位置编码的话,将不能区分处不同segments内同样相对位置的词的先后顺序。 比如对于$segment_i$的第k个token,和$segment_j$的第k个tok
阅读全文
摘要:简介 之前参与过114对话系统的项目,中间搁置很久,现在把之前做过的内容整理一下,一是为自己回顾,二是也希望分享自己看的内容,中间也遇到一些问题,如果您可以提一些建议将不胜感激. 114查询主要分为4个任务,该对话系统希望通过构建神经网络学习模型,以实现将传统的需要接线员回复用户问题的方式,转换为可
阅读全文
摘要:1. Overview 本文将CNN用于句子分类任务 (1) 使用静态vector + CNN即可取得很好的效果;=> 这表明预训练的vector是universal的特征提取器,可以被用于多种分类任务中。 (2) 根据特定任务进行fine-tuning 的vector + CNN 取得了更好的效果
阅读全文
摘要:对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了相对位置编码,就是本篇blog所介绍的算法RPR;2019年的Transformer-XL针对其se
阅读全文
摘要:CS224N Assignment 1: Exploring Word Vectors (25 Points)¶ Welcome to CS224n! Before you start, make sure you read the README.txt in the same directory
阅读全文
摘要:(转载请注明出处哦~) 参考链接: 1. 误差函数的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0 2. 正态分布的博客:https://blog.csdn.net/hhaowang/article/
阅读全文
摘要:Iterators 对torchtext的batch实现的修改算法原理 Batching matters a ton for speed. We want to have very evenly divided batches, with absolutely minimal padding. To
阅读全文
摘要:1. RuntimeError: "exp" not implemented for 'torch.LongTensor' class PositionalEncoding(nn.Module) 将 “0” 改为 “0.” 否则会报错:RuntimeError: "exp" not implemen
阅读全文
摘要:https://www.cnblogs.com/chip/p/4278135.html 正则表达式的先行断言和后行断言一共有4种形式: (?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion) (?!pattern) 零宽负向先行断言
阅读全文
摘要:原创作品,转载请注明出处哦~ RNN: Feed Forward, Back Propagation Through Time and Truncated Backpropagation Through Time 了解RNN的前向、后向传播算法的推导原理是非常重要的,这样, 1. 才会选择正确的激活
阅读全文
摘要:(原创文章,转载请注明出处哦~) 简单介绍CTC算法 CTC是序列标注问题中的一种损失函数。 传统序列标注算法需要每一时刻输入与输出符号完全对齐。而CTC扩展了标签集合,添加空元素。 在使用扩展标签集合对序列进行标注后,所有可以通过映射函数转换为真实序列的 预测序列,都是正确的预测结果。也就是在无需
阅读全文
摘要:(论文编号及摘要见 [2017 ACL] 对话系统. [2018 ACL Long] 对话系统. 论文标题[]中最后的数字表示截止2019.1.21 google被引次数) 1. Domain Adaptation: challenges: (a) data shifts (syn -> live
阅读全文
摘要:Short Paper(s) 1. Task-oriented Dialogue System for Automatic Diagnosis. (Cited by 0) Zhongyu Wei, Qianlong Liu, Baolin Peng, Huaixiao Tou, Ting Chen,
阅读全文

浙公网安备 33010602011771号