摘要:
第二讲类神经网络训练不起来 一.优化失败的原因 梯度为0有可能是local minima 和saddle point 因为计算优化的终止条件是梯度为0,但有可能梯度为0仅是局部最小值local minima或鞍点saddle point(多维,在某些维度是最小值,某些维度是最大值。) eigen特征 阅读全文
posted @ 2025-11-23 21:39
Annaprincess
阅读(7)
评论(0)
推荐(0)
摘要:
第七讲下自监督学习self-supervised learning--GPT 一.GPT的功能 预测接下来可能出现的token GPT相当于transformer 的decoder,有mask attention task description任务介绍 example:例子 可以是多个例子、一个例 阅读全文
posted @ 2025-11-23 16:29
Annaprincess
阅读(6)
评论(0)
推荐(0)
摘要:
第七讲自监督学习self-supervised learning 常见的自监督模型大小:BERT<GPT<SWITCH 监督学习(supervised learning):有标签 自监督学习(self-supervised learning):没标签(属于无监督学习的一种类型) 自监督学习的原理是初 阅读全文
posted @ 2025-11-23 15:23
Annaprincess
阅读(26)
评论(0)
推荐(0)

浙公网安备 33010602011771号