随笔分类 - 学习--NLP
摘要:恢复内容开始 恢复内容开始 首发于https://zhuanlan.zhihu.com/p/503739300 前言 本文主要介绍知识蒸馏原理,并以BERT为例,介绍两篇BERT蒸馏论文及代码,第一篇论文是在下游任务中使用BiLSTM对BERT蒸馏,第二篇是对Transformer蒸馏,即TinyB
阅读全文
摘要:https://zhuanlan.zhihu.com/p/74547224 摘要 BERT是“Bidirectional Encoder Representations from Transformers"的简称,顾名思义,它使用transformer联合上下文学习文本的双向表示。在这个表示的基础上
阅读全文
摘要:预训练 先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用。当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加载训练集A或者B训练好的参数,其他高层仍然随机初始化。底层参数有两种方式: frozen ,即预训练
阅读全文
摘要:命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、货币和百分比)命名实体。但实际应用中不只是识别上述所说的实体类,还包括其他自定义的实体,如角色、菜名等等。 2. 解决方式 命名实体识别其本质是一个序列标注问题,
阅读全文
摘要:参考: 1、https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html
阅读全文
摘要:目录: 1、RNN 2、GRU 3、LSTM 一、RNN 1、RNN结构图如下所示: 其中: $a^{(t)} = \boldsymbol{W}h^{t-1} + \boldsymbol{W}_{e}x^{t} + \mathbf{b}$ $h^{t} = f(a^{t})$, f 是激励函数,si
阅读全文
摘要:前言 Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但
阅读全文
摘要:seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文
阅读全文
摘要:一、关于分词 原则: 颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好 切分结果中非词典词越少越好,单字字典词数越
阅读全文
摘要:语言模型 语言模型 就是估测一些词的序列的概率,即预测 p(w1, w2, w3 ... wn), 一个应用就是句子的生成。 2. 语言模型的种类 Ngram ngram是一种统计的方法,它相当于固定了一个窗口,在这个窗口内的词是相关的,也就是第n个词和前n个词相关:P(s) = p(w1) p(w
阅读全文
摘要:从宏观上讲,条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到 另一个序列 Y = (y1 , y2 ... yn)。 这两个序列有着一些独特的特性,满足马尔可夫随机场,我理解的满足马尔可夫随机就是 当前的状态 yi 只与 与它相连的状态(即yi-1, yi+1 )和 对应的
阅读全文
摘要:参考:https://blog.csdn.net/happyhorizion/article/details/77894051 https://blog.csdn.net/acdreamers/article/details/44657745 1、自信息 一件事发生的概率越大,其所带的信息量就越小,
阅读全文
摘要:1、词集模型 将每个词的出现与否作为一个特征,不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。 2、词袋模型 与词集相比,会考虑词频 sklearn中 CountVectorizer与 CountVectorizer: 会以每一个词作为特征,求出每一个词的词频 http://w
阅读全文
摘要:一、词向量 词向量的表示方法: 1、one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置。但这种词表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于 Deep Lear
阅读全文

浙公网安备 33010602011771号