摘要: 第三讲空间变换层spatial transformer layer 平移translation时的特殊规则:当且仅当i=n-1,j=m时w=1否则w=0 阅读全文
posted @ 2025-11-23 23:33 Annaprincess 阅读(5) 评论(0) 推荐(0)
摘要: 梯度下降算法 梯度下降有时会使loss不降反而上升原因是: 核心结论是:loss 上升主要源于学习率过高、数据 / 特征问题或模型设置不当,导致优化偏离最优方向。 关键原因 学习率过大:步长超过最优解范围,每次更新都跳过最小值,甚至远离。 数据 / 特征问题:数据未归一化(特征尺度差异大),或存在大 阅读全文
posted @ 2025-11-23 22:23 Annaprincess 阅读(4) 评论(0) 推荐(0)
摘要: 第二讲类神经网络训练不起来 一.优化失败的原因 梯度为0有可能是local minima 和saddle point 因为计算优化的终止条件是梯度为0,但有可能梯度为0仅是局部最小值local minima或鞍点saddle point(多维,在某些维度是最小值,某些维度是最大值。) eigen特征 阅读全文
posted @ 2025-11-23 21:39 Annaprincess 阅读(7) 评论(0) 推荐(0)
摘要: 第七讲下自监督学习self-supervised learning--GPT 一.GPT的功能 预测接下来可能出现的token GPT相当于transformer 的decoder,有mask attention task description任务介绍 example:例子 可以是多个例子、一个例 阅读全文
posted @ 2025-11-23 16:29 Annaprincess 阅读(6) 评论(0) 推荐(0)
摘要: 第七讲自监督学习self-supervised learning 常见的自监督模型大小:BERT<GPT<SWITCH 监督学习(supervised learning):有标签 自监督学习(self-supervised learning):没标签(属于无监督学习的一种类型) 自监督学习的原理是初 阅读全文
posted @ 2025-11-23 15:23 Annaprincess 阅读(26) 评论(0) 推荐(0)