09 2023 档案
摘要:要理解文本,我们可以从学习它的表⽰开始。利⽤来⾃⼤型语料库的现有⽂本序列,自监督学习(selfsupervised learning)已被⼴泛⽤于预训练⽂本表⽰,例如通过使⽤周围⽂本的其它部分来预测⽂本的隐藏部分。通过这种⽅式,模型可以通过有监督地从海量⽂本数据中学习,而不需要昂贵的标签标注! 本章
阅读全文
posted @ 2023-09-29 21:43
lipu123
摘要:从上下文无关到上下文敏感 例如,word2vec和GloVe都将相同的预训练向量分配给同⼀个词,而不考虑词的上下文(如果有的话)。形式上,任何词元\(x\)的上下文无关表示是函数\(f(x)\),其仅将\(x\)作为其输入。考虑到自然语言中丰富的多义现象和复杂的语义,上下文无关表示具有明显的局限性。
阅读全文
posted @ 2023-09-26 16:21
lipu123
摘要:Self-supervised Learning 首先我们看一下什么是Supervised Learning呢? 其实就是我们输入一个\(x\),经过一个model,然后我们输出一个\(y\)。但是我们需要label标签。比如说我们来判断一篇文章是正面的还是负面的。我们需要先找一大堆文章来,然后标注
阅读全文
posted @ 2023-09-25 21:05
lipu123
摘要:BERT:公认的里程碑 BERT 模型可以作为公认的里程碑式的模型,但是它最大的优点不是创新,而是集大成者,并且这个集大成者有了各项突破,下面让我们看看 BERT 是怎么集大成者的。 BERT 的意义在于:从大量无标记数据集中训练得到的深度模型,可以显著提高各项自然语言处理任务的准确率。 近年来优秀
阅读全文
posted @ 2023-09-25 10:04
lipu123
摘要:1.Attention Attention可以从纷繁复杂的输入信息中,找出对当前输出最重要的部分。一个典型的Attention包括三部分\(Q,K,V\)。 \(Q\)是Query,是输入的信息。\(key\)和\(value\)成对出现,通常是源语言、原始文本等已有的信息。通过计算\(Q\)和\(
阅读全文
posted @ 2023-09-23 16:36
lipu123
摘要:nn.Embedding(vocab_size, embed_size) vocab_size:表示一共有多少个字需要embedding,这里注意这个vocab_size的数量可以看成最后又多少类,也就是又多少个词,就又多少类 embed_size:表示我们希望一个字向量的维度是多少 它其实和one
阅读全文
posted @ 2023-09-23 15:18
lipu123
摘要:conv1 = nn.Conv1d(in_channels,out_channels,kernel_size) 这个是一维卷积 参数 in_channels(int) – 输入信号的通道。在文本分类中,即为词向量的维度(embedding_size) out_channels(int) – 卷积产生
阅读全文
posted @ 2023-09-22 21:45
lipu123
摘要:1.基础class类 class MyClass: def __init__(self,a,b):#这里面放实例化的时候的参数 self.a=a self.b=b def my_a(self): #这里相当于定义了一个方法,实例化这个类之后用.方法名进行调用 print(self.a) def my
阅读全文
posted @ 2023-09-21 22:39
lipu123
摘要:模型 从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为sublayer)。第一个子层是多头自注意力(multi‐head self‐attention)汇聚;第二个子层是基于位置的前馈网络(positionwise feed‐forward n
阅读全文
posted @ 2023-09-21 10:08
lipu123
摘要:链接:https://ac.nowcoder.com/acm/contest/64384/C 来源:牛客网 超市里一共有 \(n\) 个货架,\(m\) 个商品,一开始商品的位置是被打乱的,小Why需要将商品全部归位。 小Why在给货架编号后,实现了每个商品所在货架必然在其应在货架之前。 小Why决
阅读全文
摘要:1.Cross self attention 1. 第一个就是这个地方,我们将编码器的输出看成key和value,然后将第一个多头注意力层输出的值看成query.其实这里可以看成Cross Attention,而不是self Attention。Cross Attention会用解码器生成的q来查询
阅读全文
posted @ 2023-09-20 16:49
lipu123
摘要:1.Input Embedding 就是将输入的句子给映射成向量。 2.加入位置编码 对于每个奇数时间步,使用余弦函数创建一个向量。对于每个偶数时间步,使用正弦函数创建一个向量。然后将这些向量添加到相应的嵌入向量。 因为Transformer没有像RNN一样的递归,所以我们必须将位置信息添加到输入嵌
阅读全文
posted @ 2023-09-20 11:58
lipu123
摘要:首先我们看看网络架构: Transformer改进了RNN被人诟病的训练慢的特点,利用self-attention可以实现快速并行。 直观认识 Transformer主要由encoder和decoder两部分组成。在Transformer的论文中,encoder和decoder均由6个encoder
阅读全文
posted @ 2023-09-16 11:54
lipu123
摘要:多头注意力 在实践中,当给定相同的查询、键和值的集合时,我们希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依 赖关系)。因此,允许注意力机制组合使用查询、键和值的不同子空间表示(representation
阅读全文
posted @ 2023-09-14 11:37
lipu123
摘要:在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中,以便同一组词元同时充当查询、键和值。具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(s
阅读全文
posted @ 2023-09-14 11:08
lipu123
摘要:注意力 在机器翻译的时候,每个生成的词可能相关于源句子中不同的词,中文和英文之间的翻译可能会存在倒装。但是可能在西方语言之间,相同意思的句子中的词的位置可能近似地是对应的,所以在翻译句子的某个部位的时候,只需要去看源句子中对应的位置就可以了。 然而,Seq2Seq模型中不能对此直接建模。Seq2Se
阅读全文
posted @ 2023-09-12 17:16
lipu123
摘要:上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数(attention scoring function),简称评分函数(scoring function),然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤,将得到与键对应的值的概率分布(即注意力
阅读全文
posted @ 2023-09-12 08:42
lipu123
摘要:生物学中的注意力提示 受试者基于非自主性提示和自主性提示有选择地引导注意力的焦点。 非自主性提示是基于环境中物体的突出性和易见性。想象一下,假如我们面前有五个物品:一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书。所有纸制品都是黑白印刷的,但咖啡杯是红色的。换句话说,这个咖啡杯在这种视觉环境中是
阅读全文
posted @ 2023-09-11 19:43
lipu123
摘要:# Tokenizer Tokenizer可以将文本进行向量化: 将每个文本转化为一个整数序列(每个整数都是词典中标记的索引); 或者将其转化为一个向量,其中每个标记的系数可以是二进制值、词频、TF-IDF权重等 ``` keras.preprocessing.text.Tokenizer(num_
阅读全文
posted @ 2023-09-07 20:14
lipu123