8.5.6 训练

下面讲一下分离梯度到底是个什么事,利用下面的图
image
假设不使用detach_(),那么在图中,两个\(h_3\)就是相同的,于是在第二个批次对\(L_2\)进行反向传播的时候,就会退回到第一个批次的计算图中;如果使用detach_(),那么中间的黑色的连线就没有了,于是就会只计算第二个图的梯度了

posted @ 2025-03-15 09:10  最爱丁珰  阅读(4)  评论(0)    收藏  举报