摘要:
在 PyTorch 中,DataLoader 本身是一个可迭代对象(Iterable),而不是一个迭代器(Iterator)。两者的关键区别在于: 1. 可迭代对象 vs. 迭代器的区别 可迭代对象(Iterable) 任何实现了 __iter__() 方法的对象,例如列表、元组、DataLoade 阅读全文
posted @ 2025-03-08 19:46
最爱丁珰
阅读(44)
评论(0)
推荐(0)
摘要:
在使用torch.autograd.grad计算二阶导数时,可以仅设置create_graph=True而无需设置retain_graph=True。以下是关键点总结: create_graph的作用: 当设置为True时,会保留梯度计算图,使得后续能对梯度再次求导(如计算二阶导数)。这是高阶导数计 阅读全文
posted @ 2025-03-08 19:37
最爱丁珰
阅读(49)
评论(0)
推荐(0)
摘要:
主要讲一下什么叫接近驻点不平滑了:我们看一下关于\(w\)和\(b\)的梯度的式子,会发现前面的\(x^{(i)}\)是固定的,但是后面的符号函数要么是\(1\)要么是\(-1\),假设当符号函数里面的数值接近\(0\)的时候,符号函数的值就可能直接取相反数,这就会导致梯度变化很大;相反可以看看\( 阅读全文
posted @ 2025-03-08 18:44
最爱丁珰
阅读(8)
评论(0)
推荐(0)
摘要:
主要是澄清答案代码中的一些疑惑 阅读全文
posted @ 2025-03-08 14:36
最爱丁珰
阅读(9)
评论(0)
推荐(0)
摘要:
对于文本标注问题,如果不适用BERT,而是使用一般神经网络,那么应该长成下面这个样子 复习一下典型的神经网络反向传播的过程中求导的步骤 那个小圆圈是哈达姆积,想一下为什么可以这么转换 然后来看一下\(\frac{\partial{s}}{\partial{W}}\),如下 所以我们不必进行重复运算, 阅读全文
posted @ 2025-03-08 11:09
最爱丁珰
阅读(12)
评论(0)
推荐(0)

浙公网安备 33010602011771号