上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 130 下一页
摘要: nn.Linear不是可以自动展平吗?为什么还要添加nn.Flatten()?实际上,这两者的展平是不同的,前者的展平主要用在Seq2Seq里面,是最后一维不同,前两维合并,而后者的展平是第一维不同,后两维合并。具体用法如下 在 PyTorch 中,nn.Flatten() 是一个用于将张量(Ten 阅读全文
posted @ 2025-03-10 15:51 最爱丁珰 阅读(81) 评论(0) 推荐(0)
摘要: 前面两道题目都需要更高级的知识,解释如下 第一道题目的核心意义在于通过计算softmax交叉熵损失的二阶导数和softmax输出的分布方差,揭示两者之间的深层联系,并引导学习者理解以下关键点: 指数族分布与对数配分函数的性质 在指数族分布中,自然参数的对数配分函数的二阶导数等于分布的方差。对于sof 阅读全文
posted @ 2025-03-09 14:55 最爱丁珰 阅读(45) 评论(0) 推荐(0)
摘要: 目录人类语言的成分单词短语名词短语(NP.)介词短语(PP.)动词短语(VP.)不同短语之间的结合依存关系依存关系的定义树库依存关系所导致的语言中的歧义树库所能提供的信息依存句法分析的方式符号学习方法深度学习方法具体步骤结果基于图的方法依存句法分析的评估方法 人类语言的成分 单词 有八个类别,常见的 阅读全文
posted @ 2025-03-09 10:04 最爱丁珰 阅读(125) 评论(0) 推荐(0)
摘要: 在 PyTorch 中,DataLoader 本身是一个可迭代对象(Iterable),而不是一个迭代器(Iterator)。两者的关键区别在于: 1. 可迭代对象 vs. 迭代器的区别 可迭代对象(Iterable) 任何实现了 __iter__() 方法的对象,例如列表、元组、DataLoade 阅读全文
posted @ 2025-03-08 19:46 最爱丁珰 阅读(44) 评论(0) 推荐(0)
摘要: 在使用torch.autograd.grad计算二阶导数时,可以仅设置create_graph=True而无需设置retain_graph=True。以下是关键点总结: create_graph的作用: 当设置为True时,会保留梯度计算图,使得后续能对梯度再次求导(如计算二阶导数)。这是高阶导数计 阅读全文
posted @ 2025-03-08 19:37 最爱丁珰 阅读(48) 评论(0) 推荐(0)
摘要: 主要讲一下什么叫接近驻点不平滑了:我们看一下关于\(w\)和\(b\)的梯度的式子,会发现前面的\(x^{(i)}\)是固定的,但是后面的符号函数要么是\(1\)要么是\(-1\),假设当符号函数里面的数值接近\(0\)的时候,符号函数的值就可能直接取相反数,这就会导致梯度变化很大;相反可以看看\( 阅读全文
posted @ 2025-03-08 18:44 最爱丁珰 阅读(8) 评论(0) 推荐(0)
摘要: 主要是澄清答案代码中的一些疑惑 阅读全文
posted @ 2025-03-08 14:36 最爱丁珰 阅读(9) 评论(0) 推荐(0)
摘要: 对于文本标注问题,如果不适用BERT,而是使用一般神经网络,那么应该长成下面这个样子 复习一下典型的神经网络反向传播的过程中求导的步骤 那个小圆圈是哈达姆积,想一下为什么可以这么转换 然后来看一下\(\frac{\partial{s}}{\partial{W}}\),如下 所以我们不必进行重复运算, 阅读全文
posted @ 2025-03-08 11:09 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 这里还要用pandas读取数据集,是因为这里是结构化数据,无论是统计学习还是深度学习,结构化数据使用pandas读入肯定是好的,下面两个概念(结构化数据和非结构化数据)就可以记一下了 阅读全文
posted @ 2025-03-07 21:37 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 看下这个答案是怎么计算出来的 # shape不一样且大小不匹配的位置任意有一个张量为1 a = torch.arange(3).reshape((1,3,1)) b = torch.arange(9).reshape((3,1,3)) a, b, a+b 我们一维一维拓展 对a: 维度2: a[0] 阅读全文
posted @ 2025-03-07 21:33 最爱丁珰 阅读(9) 评论(0) 推荐(0)
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 130 下一页