摘要: 为什么softmax 里面要用交叉熵?这个问题之前困扰我挺久的,但这两篇博文完美解答了我的疑惑。 交叉熵、相对熵和负对数似然的理解 - 最大的梦想家的文章 - 知乎 https://zhuanlan.zhihu.com/p/268171298 Kullback-Leibler(KL)散度介绍 - 灰 阅读全文
posted @ 2021-11-09 12:11 kalice 阅读(134) 评论(0) 推荐(0)
摘要: 权重衰减 使用均方范数作为硬性限制 但我们最小化 loss 的时候,需要限制权重 w 的大小,越小的$\theta$ 意味着更强的正则项。 但实际上,我们不会这么做的,我们只是在做损失函数时候,加入了 \(\parallel w \parallel ^2\) ,就像下面做的那样。 其中$\lambd 阅读全文
posted @ 2021-11-09 10:35 kalice 阅读(412) 评论(0) 推荐(0)