会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
20
21
22
23
24
25
26
27
28
···
130
下一页
2025年3月13日
6.2 练习
摘要: \((4)\) 这道题目探讨了手工设计卷积核在数学运算中的应用,主要涉及导数和积分的离散化实现。以下是分步解释: 1. 二阶导数的卷积核形式 答案: \[[-1 \quad 2 \quad -1] \]解释: 在离散信号中,二阶导数可通过中心差分近似:\[f''(x) \approx f(x+1)
阅读全文
posted @ 2025-03-13 09:22 最爱丁珰
阅读(20)
评论(0)
推荐(0)
2025年3月12日
第十一课 自然语言生成
摘要: 先来按照任务的开放性对自然语言生成的任务进行分类 不那么开放的 机器翻译 显然输出空间不是那么大 总结 一般开放的 对话 非常开放的 故事生成 将上面的任务总结成一条线如下 注意,不是说机器翻译就一定要用编码器-解码器,也不是说故事生成就一定要用解码器,上面只是一个惯例。只不过大家这么做是有原因的:
阅读全文
posted @ 2025-03-12 19:31 最爱丁珰
阅读(30)
评论(0)
推荐(0)
第二次作业
摘要: R6 我会使用UDP,因为TCP有拥塞控制,而且还有提前的三次握手,这使得TCP更慢;UDP只用在一次RTT中就可以完成 R7 军事程序,特别是战争期间进行消息传递的程序;云文档编辑,比如腾讯文档 R11 TCP提供可靠数据传输服务,对于电子邮件来说,是不能容忍消息丢失的,且要求数据按照发送顺序到达
阅读全文
posted @ 2025-03-12 16:21 最爱丁珰
阅读(19)
评论(0)
推荐(0)
5.6 练习
摘要: \((3)\) 这里两个GPU同时进行运算不是我们说的GPU并行运算,我们说的GPU并行运算是下面这个意思 你的问题涉及到计算机硬件的并行计算能力,需要从 CPU 和 GPU 的架构设计差异来理解。以下是详细解答: 1. GPU 的并行计算:同一 GPU 可以并行运算 (1) GPU 的并行性特点
阅读全文
posted @ 2025-03-12 14:40 最爱丁珰
阅读(48)
评论(0)
推荐(0)
5.1.2 顺序块
摘要: 在自定义的 MySequential 类中,使用 self._modules 而不是列表来存储子模块的原因主要有以下两点: 1. 参数注册与跟踪 PyTorch 的 nn.Module 机制要求子模块必须被显式注册到父模块的 self._modules 字典中,这样才能被正确跟踪。具体来说: 参数收
阅读全文
posted @ 2025-03-12 12:44 最爱丁珰
阅读(32)
评论(0)
推荐(0)
2025年3月11日
第十课 从人类反馈中引导强化学习
摘要: GPT-1 GPT-2(至少要三个支持是因为网络上的垃圾信息很多,有了支持能够显著减少垃圾信息的量) GPT-2首次实现了零样本学习。零样本学习是指模型在从未接触过特定任务的训练数据 、无需额外示例 、无需调整参数(梯度更新)的情况下,直接完成任务的能力。例如,用户只需给模型一个自然语言描述的任务(
阅读全文
posted @ 2025-03-11 23:49 最爱丁珰
阅读(39)
评论(0)
推荐(0)
Problem Set 2
摘要: Problem Set 2.1 Problem 2.1.1 将\(2n\)个人按照评分从大到小排序,前\(n\)个人为一组,后\(n\)个人为一组,根据贪心不难知道算法正确 def max_score_difference(scores, n): scores.sort(reverse=True)
阅读全文
posted @ 2025-03-11 18:47 最爱丁珰
阅读(14)
评论(0)
推荐(0)
第九课 预训练
摘要: 对于像BERT这种现代NLP编码器,有以下的优点 解释一下第二条:我们微调也是需要调整BERT的(不只是调整添加的全连接层),所以我们已经预训练好了的BERT的参数就是初始参数,这个参数比我们随机的参数更好训练;解释一下第三个:就是我们可以通过现代NLP预训练模型(BERT需要额外微调才能生成文本,
阅读全文
posted @ 2025-03-11 15:45 最爱丁珰
阅读(37)
评论(0)
推荐(0)
4.8 练习
摘要: \((3)\) P116的说明,感觉就是矩阵的特征值与矩阵的乘积很相关,所以要控制梯度矩阵的特征值 \((4)\) 采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性,具体分析如下: 梯度与权重的平衡: 权重的范数((|w^l|))反映参数的当前幅值,梯度范数((|\nabla L(w
阅读全文
posted @ 2025-03-11 14:42 最爱丁珰
阅读(14)
评论(0)
推荐(0)
4.7 练习
摘要: \((3)\) 为什么预测的时候还需要存储中间变量\(z,h,o\),我们直接释放掉不就行了吗? 实际上存储不是这么理解的,我们计算了\(z,h,o\)就势必在某一个时刻会将其作为临时变量存储在内存中(尽管这个时间可能非常短),这个样子仍然是消耗了内存的,我们也要算上
阅读全文
posted @ 2025-03-11 09:46 最爱丁珰
阅读(8)
评论(0)
推荐(0)
上一页
1
···
20
21
22
23
24
25
26
27
28
···
130
下一页
公告