最爱丁珰

2025年3月13日

摘要： \((4)\) 这道题目探讨了手工设计卷积核在数学运算中的应用，主要涉及导数和积分的离散化实现。以下是分步解释： 1. 二阶导数的卷积核形式答案： \[[-1 \quad 2 \quad -1] \]解释：在离散信号中，二阶导数可通过中心差分近似：\[f''(x) \approx f(x+1) 阅读全文

posted @ 2025-03-13 09:22 最爱丁珰阅读(20) 评论(0) 推荐(0)

2025年3月12日

第十一课自然语言生成

摘要：先来按照任务的开放性对自然语言生成的任务进行分类不那么开放的机器翻译显然输出空间不是那么大总结一般开放的对话非常开放的故事生成将上面的任务总结成一条线如下注意，不是说机器翻译就一定要用编码器-解码器，也不是说故事生成就一定要用解码器，上面只是一个惯例。只不过大家这么做是有原因的：阅读全文

posted @ 2025-03-12 19:31 最爱丁珰阅读(30) 评论(0) 推荐(0)

第二次作业

摘要： R6 我会使用UDP，因为TCP有拥塞控制，而且还有提前的三次握手，这使得TCP更慢；UDP只用在一次RTT中就可以完成 R7 军事程序，特别是战争期间进行消息传递的程序；云文档编辑，比如腾讯文档 R11 TCP提供可靠数据传输服务，对于电子邮件来说，是不能容忍消息丢失的，且要求数据按照发送顺序到达阅读全文

posted @ 2025-03-12 16:21 最爱丁珰阅读(19) 评论(0) 推荐(0)

5.6 练习

摘要： \((3)\) 这里两个GPU同时进行运算不是我们说的GPU并行运算，我们说的GPU并行运算是下面这个意思你的问题涉及到计算机硬件的并行计算能力，需要从 CPU 和 GPU 的架构设计差异来理解。以下是详细解答： 1. GPU 的并行计算：同一 GPU 可以并行运算 (1) GPU 的并行性特点阅读全文

posted @ 2025-03-12 14:40 最爱丁珰阅读(48) 评论(0) 推荐(0)

5.1.2 顺序块

摘要：在自定义的 MySequential 类中，使用 self._modules 而不是列表来存储子模块的原因主要有以下两点： 1. 参数注册与跟踪 PyTorch 的 nn.Module 机制要求子模块必须被显式注册到父模块的 self._modules 字典中，这样才能被正确跟踪。具体来说：参数收阅读全文

posted @ 2025-03-12 12:44 最爱丁珰阅读(32) 评论(0) 推荐(0)

2025年3月11日

第十课从人类反馈中引导强化学习

摘要： GPT-1 GPT-2（至少要三个支持是因为网络上的垃圾信息很多，有了支持能够显著减少垃圾信息的量） GPT-2首次实现了零样本学习。零样本学习是指模型在从未接触过特定任务的训练数据、无需额外示例、无需调整参数（梯度更新）的情况下，直接完成任务的能力。例如，用户只需给模型一个自然语言描述的任务（阅读全文

posted @ 2025-03-11 23:49 最爱丁珰阅读(39) 评论(0) 推荐(0)

Problem Set 2

摘要： Problem Set 2.1 Problem 2.1.1 将\(2n\)个人按照评分从大到小排序，前\(n\)个人为一组，后\(n\)个人为一组，根据贪心不难知道算法正确 def max_score_difference(scores, n): scores.sort(reverse=True) 阅读全文

posted @ 2025-03-11 18:47 最爱丁珰阅读(14) 评论(0) 推荐(0)

第九课预训练

摘要：对于像BERT这种现代NLP编码器，有以下的优点解释一下第二条：我们微调也是需要调整BERT的（不只是调整添加的全连接层），所以我们已经预训练好了的BERT的参数就是初始参数，这个参数比我们随机的参数更好训练；解释一下第三个：就是我们可以通过现代NLP预训练模型（BERT需要额外微调才能生成文本，阅读全文

posted @ 2025-03-11 15:45 最爱丁珰阅读(37) 评论(0) 推荐(0)

4.8 练习

摘要： \((3)\) P116的说明，感觉就是矩阵的特征值与矩阵的乘积很相关，所以要控制梯度矩阵的特征值 \((4)\) 采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性，具体分析如下：梯度与权重的平衡：权重的范数（(|w^l|)）反映参数的当前幅值，梯度范数（(|\nabla L(w 阅读全文

posted @ 2025-03-11 14:42 最爱丁珰阅读(14) 评论(0) 推荐(0)

4.7 练习

摘要： \((3)\) 为什么预测的时候还需要存储中间变量\(z,h,o\)，我们直接释放掉不就行了吗？实际上存储不是这么理解的，我们计算了\(z,h,o\)就势必在某一个时刻会将其作为临时变量存储在内存中（尽管这个时间可能非常短），这个样子仍然是消耗了内存的，我们也要算上阅读全文

posted @ 2025-03-11 09:46 最爱丁珰阅读(8) 评论(0) 推荐(0)

公告