Fork me on GitHub
摘要: 前言:这个题目有些标题党,argmax 的值域甚至都不是实数域,没有良定义的梯度。那为什么要讨论这个问题呢?因为 argmax 是深度学习模型中常用的一个操作,对于包含离散随机变量的模型来说,更是一个不可回避的操作,这就带来了不可微的问题,使得模型难以进行端到端的训练。但究竟为什么不可微,似乎鲜有深 阅读全文
posted @ 2023-04-16 11:12 Rotopia 阅读(190) 评论(0) 推荐(0) 编辑