摘要:
先来复习一下各个类型在计算机中的表现形式 \(32\)位浮点数 绿色数位越多,所能表示的范围越大(既可以表示更小的数,也可以表示更大的数);蓝色数位越多,所能表示的精度越高 \(16\)位浮点数 好处是可以节省内存。如果我们正在训练神经网络,但是突然发现内存不够了,有哪些解决方法呢? 我们就可以把所 阅读全文
posted @ 2025-03-15 13:51
最爱丁珰
阅读(17)
评论(0)
推荐(0)
摘要:
\((3)\) a.看代码,可以知道就是把\(\text{softmax}\)之后的值当成一个概率分布,然后在里面进行随机抽样;这个样子当然会让困惑度增加,因为选择多了很多 b.这个题干的意思就是让\(\text{softmax}\)之后的概率分布的值进行变化,大的更大,小的更小,从而逼近选择概率最 阅读全文
posted @ 2025-03-15 09:29
最爱丁珰
阅读(8)
评论(0)
推荐(0)
摘要:
下面讲一下分离梯度到底是个什么事,利用下面的图 假设不使用detach_(),那么在图中,两个\(h_3\)就是相同的,于是在第二个批次对\(L_2\)进行反向传播的时候,就会退回到第一个批次的计算图中;如果使用detach_(),那么中间的黑色的连线就没有了,于是就会只计算第二个图的梯度了 阅读全文
posted @ 2025-03-15 09:10
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
为什么要将式\((8.29)\)的循环计算去除变成式\((8.32)\)?直接对式\((8.29)\)进行递推计算不可以吗? 在循环神经网络(RNN)中,将式(8.29)的递归计算展开为式(8.32)的显式求和形式,主要有以下原因: 1. 揭示梯度传播的长期依赖问题 式(8.29)的递归形式为: \ 阅读全文
posted @ 2025-03-15 08:52
最爱丁珰
阅读(49)
评论(0)
推荐(0)

浙公网安备 33010602011771号