当标量对向量求导时不需要该参数,但当向量对向量求导时,若不加上该参数则会报错,显示“grad can be implicitly created only for scalar outputs”,对该gradient参数解释如下。 当$\mathbf y$对$\mathbf x$求导时,结果为梯度矩 Read More
看了刘建平老师的博客https://www.cnblogs.com/pinard/p/6422831.html对如下其中两个公式进行详细推导 损失函数为(大写字母为矩阵,小写字母字母加粗为列向量,其中$WL$的维度为$M_L*M_{L-1}$,即第$L$层神经元个数乘以第$L-1$层神经元个数): Read More