摘要:
Problem Set 3.1 Problem 3.1.1 \((1)\)利用二分答案。令\(l,r\)表示答案存在的区间(初始化\(l=2,r=n-1\))。在每一次二分中:令\(m=\lfloor\frac{l+r}{2}\rfloor\),判断\(A[m]\)与其两个邻居之间的大小关系,若\( 阅读全文
posted @ 2025-03-15 20:46
最爱丁珰
阅读(36)
评论(0)
推荐(0)
摘要:
\((5)\) 他这个答案算是一种方式吧,但是你说不能令一个time就是一个num_steps吗?我觉得可以 阅读全文
posted @ 2025-03-15 18:50
最爱丁珰
阅读(9)
评论(0)
推荐(0)
摘要:
我觉得他这种读取的方法比较幽默,后面的机器翻译什么的,全部都是用的截断和填充,不知道他这么读取的意义在哪里 阅读全文
posted @ 2025-03-15 18:45
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
先来复习一下各个类型在计算机中的表现形式 \(32\)位浮点数 绿色数位越多,所能表示的范围越大(既可以表示更小的数,也可以表示更大的数);蓝色数位越多,所能表示的精度越高 \(16\)位浮点数 好处是可以节省内存。如果我们正在训练神经网络,但是突然发现内存不够了,有哪些解决方法呢? 我们就可以把所 阅读全文
posted @ 2025-03-15 13:51
最爱丁珰
阅读(17)
评论(0)
推荐(0)
摘要:
\((3)\) a.看代码,可以知道就是把\(\text{softmax}\)之后的值当成一个概率分布,然后在里面进行随机抽样;这个样子当然会让困惑度增加,因为选择多了很多 b.这个题干的意思就是让\(\text{softmax}\)之后的概率分布的值进行变化,大的更大,小的更小,从而逼近选择概率最 阅读全文
posted @ 2025-03-15 09:29
最爱丁珰
阅读(8)
评论(0)
推荐(0)
摘要:
下面讲一下分离梯度到底是个什么事,利用下面的图 假设不使用detach_(),那么在图中,两个\(h_3\)就是相同的,于是在第二个批次对\(L_2\)进行反向传播的时候,就会退回到第一个批次的计算图中;如果使用detach_(),那么中间的黑色的连线就没有了,于是就会只计算第二个图的梯度了 阅读全文
posted @ 2025-03-15 09:10
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
为什么要将式\((8.29)\)的循环计算去除变成式\((8.32)\)?直接对式\((8.29)\)进行递推计算不可以吗? 在循环神经网络(RNN)中,将式(8.29)的递归计算展开为式(8.32)的显式求和形式,主要有以下原因: 1. 揭示梯度传播的长期依赖问题 式(8.29)的递归形式为: \ 阅读全文
posted @ 2025-03-15 08:52
最爱丁珰
阅读(48)
评论(0)
推荐(0)

浙公网安备 33010602011771号