下面讲一下分离梯度到底是个什么事,利用下面的图 假设不使用detach_(),那么在图中,两个\(h_3\)就是相同的,于是在第二个批次对\(L_2\)进行反向传播的时候,就会退回到第一个批次的计算图中;如果使用detach_(),那么中间的黑色的连线就没有了,于是就会只计算第二个图的梯度了
detach_()