2023 年 9月随笔档案 - lipu123

自然然语言处理：预训练-词嵌入（word2vec）

摘要：要理解文本，我们可以从学习它的表⽰开始。利⽤来⾃⼤型语料库的现有⽂本序列，自监督学习（selfsupervised learning）已被⼴泛⽤于预训练⽂本表⽰，例如通过使⽤周围⽂本的其它部分来预测⽂本的隐藏部分。通过这种⽅式，模型可以通过有监督地从海量⽂本数据中学习，而不需要昂贵的标签标注！本章阅读全文

posted @ 2023-09-29 21:43 lipu123

BERT(李沐)

摘要：从上下文无关到上下文敏感例如，word2vec和GloVe都将相同的预训练向量分配给同⼀个词，而不考虑词的上下文（如果有的话）。形式上，任何词元\(x\)的上下文无关表示是函数\(f(x)\)，其仅将\(x\)作为其输入。考虑到自然语言中丰富的多义现象和复杂的语义，上下文无关表示具有明显的局限性。阅读全文

posted @ 2023-09-26 16:21 lipu123

Bert(李宏毅)

摘要：Self-supervised Learning 首先我们看一下什么是Supervised Learning呢？其实就是我们输入一个\(x\),经过一个model，然后我们输出一个\(y\)。但是我们需要label标签。比如说我们来判断一篇文章是正面的还是负面的。我们需要先找一大堆文章来，然后标注阅读全文

posted @ 2023-09-25 21:05 lipu123

BERT

摘要：BERT：公认的里程碑 BERT 模型可以作为公认的里程碑式的模型，但是它最大的优点不是创新，而是集大成者，并且这个集大成者有了各项突破，下面让我们看看 BERT 是怎么集大成者的。 BERT 的意义在于：从大量无标记数据集中训练得到的深度模型，可以显著提高各项自然语言处理任务的准确率。近年来优秀阅读全文

posted @ 2023-09-25 10:04 lipu123

Attention、Self-Attention与Mutil-Head Attention的区别以及位置编码的作用

摘要：1.Attention Attention可以从纷繁复杂的输入信息中，找出对当前输出最重要的部分。一个典型的Attention包括三部分\(Q,K,V\)。 \(Q\)是Query，是输入的信息。\(key\)和\(value\)成对出现，通常是源语言、原始文本等已有的信息。通过计算\(Q\)和\( 阅读全文

posted @ 2023-09-23 16:36 lipu123

nn.Embedding

摘要：nn.Embedding(vocab_size, embed_size) vocab_size：表示一共有多少个字需要embedding，这里注意这个vocab_size的数量可以看成最后又多少类，也就是又多少个词，就又多少类 embed_size:表示我们希望一个字向量的维度是多少它其实和one 阅读全文

posted @ 2023-09-23 15:18 lipu123

nn.Conv1d

摘要：conv1 = nn.Conv1d(in_channels,out_channels,kernel_size) 这个是一维卷积参数 in_channels(int) – 输入信号的通道。在文本分类中，即为词向量的维度（embedding_size） out_channels(int) – 卷积产生阅读全文

posted @ 2023-09-22 21:45 lipu123

python练习-类

摘要：1.基础class类 class MyClass: def __init__(self,a,b):#这里面放实例化的时候的参数 self.a=a self.b=b def my_a(self): #这里相当于定义了一个方法，实例化这个类之后用.方法名进行调用 print(self.a) def my 阅读全文

posted @ 2023-09-21 22:39 lipu123

Transformer代码实现

摘要：模型从宏观角度来看，Transformer的编码器是由多个相同的层叠加而成的，每个层都有两个子层（子层表示为sublayer）。第一个子层是多头自注意力（multi‐head self‐attention）汇聚；第二个子层是基于位置的前馈网络（positionwise feed‐forward n 阅读全文

posted @ 2023-09-21 10:08 lipu123

牛客-小Why的商品归位（差分、区间和）

摘要：链接：https://ac.nowcoder.com/acm/contest/64384/C 来源：牛客网超市里一共有 \(n\) 个货架，\(m\) 个商品，一开始商品的位置是被打乱的，小Why需要将商品全部归位。小Why在给货架编号后，实现了每个商品所在货架必然在其应在货架之前。小Why决阅读全文

posted @ 2023-09-20 17:34 lipu123 阅读(92) 评论(0) 推荐(0)

Transformer中的细节

摘要：1.Cross self attention 1. 第一个就是这个地方，我们将编码器的输出看成key和value,然后将第一个多头注意力层输出的值看成query.其实这里可以看成Cross Attention，而不是self Attention。Cross Attention会用解码器生成的q来查询阅读全文

posted @ 2023-09-20 16:49 lipu123

一步一步深入浅出解释Transformer原理

摘要：1.Input Embedding 就是将输入的句子给映射成向量。 2.加入位置编码对于每个奇数时间步，使用余弦函数创建一个向量。对于每个偶数时间步，使用正弦函数创建一个向量。然后将这些向量添加到相应的嵌入向量。因为Transformer没有像RNN一样的递归，所以我们必须将位置信息添加到输入嵌阅读全文

posted @ 2023-09-20 11:58 lipu123

Transformer

摘要：首先我们看看网络架构： Transformer改进了RNN被人诟病的训练慢的特点，利用self-attention可以实现快速并行。直观认识 Transformer主要由encoder和decoder两部分组成。在Transformer的论文中，encoder和decoder均由6个encoder 阅读全文

posted @ 2023-09-16 11:54 lipu123

pytorch-多头注意力(维度分析)重要

摘要：多头注意力在实践中，当给定相同的查询、键和值的集合时，我们希望模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系（例如，短距离依赖和长距离依赖关系）。因此，允许注意力机制组合使用查询、键和值的不同子空间表示（representation 阅读全文

posted @ 2023-09-14 11:37 lipu123

自注意力与位置编码

摘要：在深度学习中，经常使用卷积神经网络（CNN）或循环神经网络（RNN）对序列进行编码。想象一下，有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为自注意力（s 阅读全文

posted @ 2023-09-14 11:08 lipu123

使用注意力机制的seq2seq

摘要：注意力在机器翻译的时候，每个生成的词可能相关于源句子中不同的词，中文和英文之间的翻译可能会存在倒装。但是可能在西方语言之间，相同意思的句子中的词的位置可能近似地是对应的，所以在翻译句子的某个部位的时候，只需要去看源句子中对应的位置就可以了。然而，Seq2Seq模型中不能对此直接建模。Seq2Se 阅读全文

posted @ 2023-09-12 17:16 lipu123

self attention-注意力评分函数

摘要：上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，将得到与键对应的值的概率分布（即注意力阅读全文

posted @ 2023-09-12 08:42 lipu123

注意力机制

摘要：生物学中的注意力提示受试者基于非自主性提示和自主性提示有选择地引导注意力的焦点。非自主性提示是基于环境中物体的突出性和易见性。想象一下，假如我们面前有五个物品：一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书。所有纸制品都是黑白印刷的，但咖啡杯是红色的。换句话说，这个咖啡杯在这种视觉环境中是阅读全文

posted @ 2023-09-11 19:43 lipu123

keras中关于文本预处理的库函数Tokenizer

摘要：# Tokenizer Tokenizer可以将文本进行向量化：将每个文本转化为一个整数序列（每个整数都是词典中标记的索引）；或者将其转化为一个向量，其中每个标记的系数可以是二进制值、词频、TF-IDF权重等 ``` keras.preprocessing.text.Tokenizer(num_ 阅读全文

posted @ 2023-09-07 20:14 lipu123

lipu123

09 2023 档案

公告