摘要: GPT-1 GPT-2(至少要三个支持是因为网络上的垃圾信息很多,有了支持能够显著减少垃圾信息的量) GPT-2首次实现了零样本学习。零样本学习是指模型在从未接触过特定任务的训练数据 、无需额外示例 、无需调整参数(梯度更新)的情况下,直接完成任务的能力。例如,用户只需给模型一个自然语言描述的任务( 阅读全文
posted @ 2025-03-11 23:49 最爱丁珰 阅读(39) 评论(0) 推荐(0)
摘要: Problem Set 2.1 Problem 2.1.1 将\(2n\)个人按照评分从大到小排序,前\(n\)个人为一组,后\(n\)个人为一组,根据贪心不难知道算法正确 def max_score_difference(scores, n): scores.sort(reverse=True) 阅读全文
posted @ 2025-03-11 18:47 最爱丁珰 阅读(14) 评论(0) 推荐(0)
摘要: 对于像BERT这种现代NLP编码器,有以下的优点 解释一下第二条:我们微调也是需要调整BERT的(不只是调整添加的全连接层),所以我们已经预训练好了的BERT的参数就是初始参数,这个参数比我们随机的参数更好训练;解释一下第三个:就是我们可以通过现代NLP预训练模型(BERT需要额外微调才能生成文本, 阅读全文
posted @ 2025-03-11 15:45 最爱丁珰 阅读(37) 评论(0) 推荐(0)
摘要: \((3)\) P116的说明,感觉就是矩阵的特征值与矩阵的乘积很相关,所以要控制梯度矩阵的特征值 \((4)\) 采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性,具体分析如下: 梯度与权重的平衡: 权重的范数((|w^l|))反映参数的当前幅值,梯度范数((|\nabla L(w 阅读全文
posted @ 2025-03-11 14:42 最爱丁珰 阅读(14) 评论(0) 推荐(0)
摘要: \((3)\) 为什么预测的时候还需要存储中间变量\(z,h,o\),我们直接释放掉不就行了吗? 实际上存储不是这么理解的,我们计算了\(z,h,o\)就势必在某一个时刻会将其作为临时变量存储在内存中(尽管这个时间可能非常短),这个样子仍然是消耗了内存的,我们也要算上 阅读全文
posted @ 2025-03-11 09:46 最爱丁珰 阅读(8) 评论(0) 推荐(0)
摘要: \((7)\) 解答: 开发一种新的噪声注入技术以替代暂退法,可从以下方向探索: 1. 高斯噪声注入(Gaussian Noise Injection) 方法:在每一层的激活值后加入零均值的高斯噪声 $ \epsilon \sim \mathcal{N}(0, \sigma^2) $,噪声强度 $ 阅读全文
posted @ 2025-03-11 09:32 最爱丁珰 阅读(46) 评论(0) 推荐(0)
摘要: \((4)\) 佛罗贝尼乌斯范数的平方可以通过矩阵的迹运算表示,类似于向量的L2范数平方形式。具体来说: 对于向量 $ w $,其L2范数平方为 $ |w|_2^2 = w^\top w $。 对于矩阵 $ A $,其佛罗贝尼乌斯范数平方为: \[\|A\|_F^2 = \text{trace}(A 阅读全文
posted @ 2025-03-11 08:45 最爱丁珰 阅读(14) 评论(0) 推荐(0)