上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页
摘要: 要打印 TorchModel 中线性层的权重和偏置,需要先实例化模型,然后通过模型的属性访问线性层,再打印其权重和偏置。以下是修改后的代码: python 运行 import torch import torch.nn as nn class TorchModel(nn.Module): def _ 阅读全文
posted @ 2025-06-23 01:27 m516606428 阅读(39) 评论(0) 推荐(0)
摘要: 是的,你理解得没错。在 PyTorch 中,当你创建一个新的 nn.Linear 层时,如果没有手动指定权重(weight)和偏置(bias),它们会被随机初始化。这意味着每次运行代码时,得到的权重和偏置值通常是不同的,因此对同一输入的输出结果也会不同。 随机初始化的原因 打破对称性:如果所有神经元 阅读全文
posted @ 2025-06-23 01:25 m516606428 阅读(116) 评论(0) 推荐(0)
摘要: 如果没指定wb 他是随机出一个结果么 权重 w: [[ 0.19638156 -0.06031747 0.02223001 -0.22013447 0.2537503 ]] 偏置 b: [0.03216214] 我可以理解这个每次出的都不一样么/ 是的,你理解得没错。在 PyTorch 中,当你创建 阅读全文
posted @ 2025-06-23 01:25 m516606428 阅读(10) 评论(0) 推荐(0)
摘要: 这个模型当我[0.1358896, 0.59416669, 0.92579291, 0.41567412, 0.1358894] [0.1358891, 0.59416669, 0.92579291, 0.41567412, 0.1358894] [0.1358892, 0.59416669, 0. 阅读全文
posted @ 2025-06-23 00:22 m516606428 阅读(45) 评论(0) 推荐(0)
摘要: 在 PyTorch 的线性层(nn.Linear)中,权重矩阵的维度顺序可能与你手动计算时的直觉相反,这是导致你感到困惑的主要原因。我来解释一下这个现象背后的原理,并提供代码示例帮助你理解。 1. 为什么需要 "转置"? 在数学中,线性变换通常表示为 y = Wx + b,其中: x 是输入向量(维 阅读全文
posted @ 2025-06-22 23:50 m516606428 阅读(138) 评论(0) 推荐(0)
摘要: 在深度学习中,线性层(全连接层)的权重初始化范围通常设置为 [-1/√n, 1/√n],其中 n 是输入神经元的数量(例如你提到的 10)。这种初始化方法被称为 Xavier 初始化(也称为 Glorot 初始化),其目的是保持信号在神经网络中的方差一致性,避免梯度消失或爆炸。 为什么选择 1/√n 阅读全文
posted @ 2025-06-22 23:23 m516606428 阅读(27) 评论(0) 推荐(0)
摘要: torch.nn.Module 是 PyTorch 中所有神经网络模块的基类,它封装了神经网络的核心功能,包括参数管理、前向传播、训练模式切换等。以下从三个维度解析其封装内容和使用价值: 一、nn.Module 封装了什么? 1. 参数自动管理 nn.Parameter:将张量注册为模型参数,自动加 阅读全文
posted @ 2025-06-22 16:17 m516606428 阅读(49) 评论(0) 推荐(0)
摘要: 在代码实现上,BERT 的层数差异主要体现在Transformer 编码器堆叠的数量和参数规模上。以下通过 PyTorch 代码对比单层 BERT 和 12 层 BERT 的核心差异(为简化说明,省略部分非关键细节): 一、核心结构对比 1. 单层 BERT(仅 1 个 Transformer 编码 阅读全文
posted @ 2025-06-22 16:15 m516606428 阅读(42) 评论(0) 推荐(0)
摘要: “手撕 Transformer” 和 “手撕 BERT” 虽然都涉及手动实现深度学习模型,但二者在目标、复杂度、应用场景和技术细节上存在显著差异。以下从多个维度对比分析: 一、核心目标与应用场景 对比项手撕 Transformer手撕 BERT 本质 实现 Transformer 的基础架构(编码器 阅读全文
posted @ 2025-06-22 16:11 m516606428 阅读(66) 评论(0) 推荐(0)
摘要: “手撕 Transformer” 通常指手动实现 Transformer 模型的核心代码(而非直接调用框架 API),这一过程对技术学习、研究和工程实践具有多重意义。以下从原理理解、技术提升、应用价值等维度展开分析: 一、深入理解深度学习核心原理 1. 解构 Transformer 的底层逻辑 Tr 阅读全文
posted @ 2025-06-22 16:07 m516606428 阅读(131) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页