2024 年 1月 13 日随笔档案 - 脂环

2024年1月13日

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记

摘要： Intro 在训练集上最小化损失很可能导致泛化性低，因为当今模型的过参数化会导致training loss的landscape异常复杂且非凸，包含很多local/global minima，因此优化器的选择至关重要。loss landscape的几何性质（特别是minima的flatness）与泛化阅读全文

posted @ 2024-01-13 17:48 脂环阅读(691) 评论(0) 推荐(0)

Loading

脂环

公告