上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 132 下一页
摘要: 多头注意力其实就是将普通注意力机制进行多次,每次都得到一个结果,然后最终将这些结果直接用pd.concat拼接起来,然后再乘以一个矩阵即可,如下 实际中,我们不会采取for循环计算多个头,而是直接采取并行计算 阅读全文
posted @ 2025-02-24 22:54 最爱丁珰 阅读(55) 评论(0) 推荐(0)
摘要: 假设现在有一个句子:Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢?这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的,双向RNN又只能一个词一个词的计算,而自注意力机制就可以并行计算,如下 自注意力要计 阅读全文
posted @ 2025-02-24 15:46 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要: Transformer之所以需要位置信息,是因为Transformer没有RNN那种循环结构,导致其无法区分每个token谁在前在后。数学上,比如Transformer的编码器,由于其是多头自注意力和逐位前馈网络,所以对于一个输入编码器的序列,将序列的顺序交换,最后得到的向量就是交换之前得到的向量也 阅读全文
posted @ 2025-02-24 14:40 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 首先,RNN是逐个处理词元的,这个部分应该是指传统的RNN模型,比如LSTM或GRU,它们是按时间步依次处理输入序列的,每个时间步只处理一个词元,并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的,不能同时处理后面的词元,必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系 阅读全文
posted @ 2025-02-24 14:24 最爱丁珰 阅读(32) 评论(0) 推荐(0)
摘要: valide_lens是二维数组,假设其如下 tensor([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14], [15, 16, 17, 18, 19]]) 那么对其在第零维进行repeat_interleave后,如下 tensor 阅读全文
posted @ 2025-02-23 17:26 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要: 这里查询,键和值的形状不要看书上,看我下面写的文字 对于查询来说,第一维的确是批量大小,可以忽略不管;第二维是一个批量中查询\(z\)的个数;第三维是每个查询\(z\)的特征维度(代码中的query_size) 对于键来说,第一维的确是批量大小,可以忽略不管;第二维是键值对个数,也就是键的个数,也就 阅读全文
posted @ 2025-02-23 16:03 最爱丁珰 阅读(34) 评论(0) 推荐(0)
摘要: 这里的键可以理解成\(x\),值可以理解成\(y\),也就是说每一个\(x\)都会对应一个\(y\)(在这个情形下,\(x\)和\(y\)都可以是向量,而且维度不一定相同);查询可以理解成一个我们想要预测的量\(z\),想要预测\(z\)的输出\(y\)是多少(注意\(z\)的维度不一定要与\(x\ 阅读全文
posted @ 2025-02-23 15:52 最爱丁珰 阅读(82) 评论(0) 推荐(0)
摘要: Problem Set 1.1 Problem 1.1.1 \(1)\) 基本情况:若\(z=0\),则\(yz=0\),返回正确值 归纳假设:令\(d\)为一个常数,假设\(\forall z<d\),算法返回正确值 归纳步骤:若\(z=d\),利用数学归纳法 若\(z\)为偶数,则返回\(\te 阅读全文
posted @ 2025-02-23 13:42 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要: torch.repeat_interleave 用于按指定规则重复张量的元素,支持按维度扩展或自定义每个元素的重复次数。以下是详细说明和示例: 作用 功能:沿特定维度重复张量的元素,支持两种模式: 统一重复次数:所有元素重复相同次数。 自定义重复次数:每个元素按单独指定的次数重复。 与 torch. 阅读全文
posted @ 2025-02-22 15:54 最爱丁珰 阅读(89) 评论(0) 推荐(0)
摘要: 可以发现\(\text{AlexNet}\)和VGG最后面的网络都是全连接层,但是有如下问题 基本上所有参数都集中在最后的全连接层(这样导致计算慢内存大还很容易过拟合,比如我们期望三层全连接层学习完所有特征,但是一层就把所有特征学习完了) 所以我们要替换掉最后的全连接层。我们可以使用\(1\time 阅读全文
posted @ 2025-02-21 09:08 最爱丁珰 阅读(25) 评论(0) 推荐(0)
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 132 下一页