2025 年 3月 8 日随笔档案 - 最爱丁珰

2025年3月8日

摘要：在 PyTorch 中，DataLoader 本身是一个可迭代对象（Iterable），而不是一个迭代器（Iterator）。两者的关键区别在于： 1. 可迭代对象 vs. 迭代器的区别可迭代对象（Iterable）任何实现了 __iter__() 方法的对象，例如列表、元组、DataLoade 阅读全文

posted @ 2025-03-08 19:46 最爱丁珰阅读(44) 评论(0) 推荐(0)

3.2 练习

摘要：在使用torch.autograd.grad计算二阶导数时，可以仅设置create_graph=True而无需设置retain_graph=True。以下是关键点总结： create_graph的作用：当设置为True时，会保留梯度计算图，使得后续能对梯度再次求导（如计算二阶导数）。这是高阶导数计阅读全文

posted @ 2025-03-08 19:37 最爱丁珰阅读(49) 评论(0) 推荐(0)

练习

摘要：主要讲一下什么叫接近驻点不平滑了：我们看一下关于\(w\)和\(b\)的梯度的式子，会发现前面的\(x^{(i)}\)是固定的，但是后面的符号函数要么是\(1\)要么是\(-1\)，假设当符号函数里面的数值接近\(0\)的时候，符号函数的值就可能直接取相反数，这就会导致梯度变化很大；相反可以看看\( 阅读全文

posted @ 2025-03-08 18:44 最爱丁珰阅读(8) 评论(0) 推荐(0)

3.1 练习

摘要：主要是澄清答案代码中的一些疑惑阅读全文

posted @ 2025-03-08 14:36 最爱丁珰阅读(9) 评论(0) 推荐(0)

第三课反向传播与神经网络

摘要：对于文本标注问题，如果不适用BERT，而是使用一般神经网络，那么应该长成下面这个样子复习一下典型的神经网络反向传播的过程中求导的步骤那个小圆圈是哈达姆积，想一下为什么可以这么转换然后来看一下\(\frac{\partial{s}}{\partial{W}}\)，如下所以我们不必进行重复运算，阅读全文

posted @ 2025-03-08 11:09 最爱丁珰阅读(12) 评论(0) 推荐(0)

最爱丁珰

公告