随笔分类 -  深度学习&机器学习&机器学习 / 深度学习-pyTorch

摘要:conv1 = nn.Conv1d(in_channels,out_channels,kernel_size) 这个是一维卷积 参数 in_channels(int) – 输入信号的通道。在文本分类中,即为词向量的维度(embedding_size) out_channels(int) – 卷积产生 阅读全文
posted @ 2023-09-22 21:45 lipu123
摘要:模型 从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为sublayer)。第一个子层是多头自注意力(multi‐head self‐attention)汇聚;第二个子层是基于位置的前馈网络(positionwise feed‐forward n 阅读全文
posted @ 2023-09-21 10:08 lipu123
摘要:1.Cross self attention 1. 第一个就是这个地方,我们将编码器的输出看成key和value,然后将第一个多头注意力层输出的值看成query.其实这里可以看成Cross Attention,而不是self Attention。Cross Attention会用解码器生成的q来查询 阅读全文
posted @ 2023-09-20 16:49 lipu123
摘要:1.Input Embedding 就是将输入的句子给映射成向量。 2.加入位置编码 对于每个奇数时间步,使用余弦函数创建一个向量。对于每个偶数时间步,使用正弦函数创建一个向量。然后将这些向量添加到相应的嵌入向量。 因为Transformer没有像RNN一样的递归,所以我们必须将位置信息添加到输入嵌 阅读全文
posted @ 2023-09-20 11:58 lipu123
摘要:首先我们看看网络架构: Transformer改进了RNN被人诟病的训练慢的特点,利用self-attention可以实现快速并行。 直观认识 Transformer主要由encoder和decoder两部分组成。在Transformer的论文中,encoder和decoder均由6个encoder 阅读全文
posted @ 2023-09-16 11:54 lipu123
摘要:多头注意力 在实践中,当给定相同的查询、键和值的集合时,我们希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依 赖关系)。因此,允许注意力机制组合使用查询、键和值的不同子空间表示(representation 阅读全文
posted @ 2023-09-14 11:37 lipu123
摘要:在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中,以便同一组词元同时充当查询、键和值。具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(s 阅读全文
posted @ 2023-09-14 11:08 lipu123
摘要:注意力 在机器翻译的时候,每个生成的词可能相关于源句子中不同的词,中文和英文之间的翻译可能会存在倒装。但是可能在西方语言之间,相同意思的句子中的词的位置可能近似地是对应的,所以在翻译句子的某个部位的时候,只需要去看源句子中对应的位置就可以了。 然而,Seq2Seq模型中不能对此直接建模。Seq2Se 阅读全文
posted @ 2023-09-12 17:16 lipu123
摘要:上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数(attention scoring function),简称评分函数(scoring function),然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤,将得到与键对应的值的概率分布(即注意力 阅读全文
posted @ 2023-09-12 08:42 lipu123
摘要:生物学中的注意力提示 受试者基于非自主性提示和自主性提示有选择地引导注意力的焦点。 非自主性提示是基于环境中物体的突出性和易见性。想象一下,假如我们面前有五个物品:一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书。所有纸制品都是黑白印刷的,但咖啡杯是红色的。换句话说,这个咖啡杯在这种视觉环境中是 阅读全文
posted @ 2023-09-11 19:43 lipu123
摘要:首先我们回忆一下CNN: 在CNN中,输入一张图片,经过多层的卷积层,最后到输出层判别图片中的物体的类别。CNN中使用卷积层做特征提取,使用Softmax回归做预测,从某种意义上来说,特征提取可以看成是编码,Softmax回归可以看成是解码 编码器:将输入编程成中间表达形式(特征),就像上面的卷积层 阅读全文
posted @ 2023-08-25 10:37 lipu123
摘要:语言模型是自然语言处理的关键,而机器翻译是语言模型最成功的基准测试。因为机器翻译正是将输入序列转换成输出序列的序列转换模型的核心问题。序列转换模型在各类现人工智能 应用中发挥着至关重要的作用。为此,本节将介绍机器翻译 问题及其后文需要使用的数据集。 机器翻译指的是将序列从⼀种语言自动翻译成另⼀种语言 阅读全文
posted @ 2023-08-24 22:18 lipu123
摘要:在序列学习中,我们以往假设的目标是:在给定观测的情况下(例如,在时间序列的上下文中或在语言模型的上下文中),对下一个输出进行建模。虽然这是⼀个典型情景,但不是唯一的。还可能发生什么其它的情况呢?我们考虑以下三个在文本序列中填空的任务。 ![image](https://img2023.cnblogs 阅读全文
posted @ 2023-08-23 22:50 lipu123
摘要:到目前为止,我们只讨论了具有⼀个单向隐藏层的循环神经网络。其中,隐变量和观测值与具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性,这就不是⼀个大问题。然而,对⼀个单层来说,这可能具有相当的挑战性。之前在线性模型中,我们通过添加更多的层来解决这个问题。而在循环神经网络中,我们首先 阅读全文
posted @ 2023-08-23 21:33 lipu123
摘要:例如,循环神经网络在实践中一个常见问题是数值不稳定性。尽管我们已经应用了梯度裁剪等技巧来缓解这个问题,但是仍需要通过设计更复杂的序列模型来进⼀步处理它。具体来说,我们将引⼊两个广泛使用的网络,即门控循环单元(GRU)和长短期记忆网络(LSTM)。 # 门控循环单元(GRU) 我们讨论了如何在循环神经 阅读全文
posted @ 2023-08-21 21:42 lipu123
摘要:n元语法模型,其中单词$x_t$在时间步t的条件概率仅取决于前面$n−1$个单词。对于时间步$t − (n − 1)$之前的单词,如果我们想将其可能产⽣的影响合并到$x_t$上,需要增加n,然而模型参数的数量也会随之呈指数增长,因为词表$V$需要存储$|V|^n$个数字,因此与其将$P(x_t | 阅读全文
posted @ 2023-08-20 23:13 lipu123
摘要:之前在做卷积神经网络的时候,我们特征序列都是一些数字序列,但是如果我们遇到一些文本需要将文本转化成数字序列。 # 文本预处理 1. 将文本作为字符串加载到内存中。 2. 将字符串拆分为词元(如单词和字符)。 3. 建立一个词表,将拆分的词元映射到数字索引。 4. 将文本转换为数字索引序列,方便模型操 阅读全文
posted @ 2023-08-19 11:49 lipu123
摘要:我们在堆叠更多层的时候一定会有一个更好的结果吗? 如图所示我们堆积更多层的时候,可能会有一个更差的结果。但是如果你的更多层的时候包含你的前一层的时候一定比你的前一层好。 ![image](https://img2023.cnblogs.com/blog/1914163/202308/1914163- 阅读全文
posted @ 2023-08-18 21:19 lipu123
摘要:# 1.跨通道的特征整合 比如:输入的特征是16x64x64,其中16是通道数,假如我们想要把16个通道的信息进行融合,最后输出的8个特征,那我们就需要8个$16 \times 1 \times 1$的卷积核,然后输出的特征就是$8 \times 64 \times 64$。这个8个$16 \tim 阅读全文
posted @ 2023-08-18 09:22 lipu123
摘要:# Feature Scaling(特征归一化) Feature scaling,常见的提法有"特征归一化"、"标准化",是数据预处理中的重要技术。他的重要性: (1)特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1,2,3,4.. 阅读全文
posted @ 2023-08-17 22:16 lipu123