摘要: 目前分类损失函数为何多用交叉熵,而不是 KL 散度。 首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL 散度是最合适的。但在实际中,某一事件的标签是已知不变的(例如我们设置猫的 label 为 1,那么所有关于猫的样本都要标记为 1),即目标分布的熵为常数。而根据 阅读全文
posted @ 2022-01-05 11:07 Uriel-w 阅读(273) 评论(0) 推荐(0)