m516606428

2025年6月23日

要打印 TorchModel 中线性层的权重和偏置，需要先实例化模型，然后通过模型的属性访问线性层，再打印其权重和偏置。以下是修改后的代码：

摘要：要打印 TorchModel 中线性层的权重和偏置，需要先实例化模型，然后通过模型的属性访问线性层，再打印其权重和偏置。以下是修改后的代码： python 运行 import torch import torch.nn as nn class TorchModel(nn.Module): def _ 阅读全文

posted @ 2025-06-23 01:27 m516606428 阅读(39) 评论(0) 推荐(0)

当你创建一个新的 nn.Linear 层时，如果没有手动指定权重（weight）和偏置（bias），它们会被随机初始化

摘要：是的，你理解得没错。在 PyTorch 中，当你创建一个新的 nn.Linear 层时，如果没有手动指定权重（weight）和偏置（bias），它们会被随机初始化。这意味着每次运行代码时，得到的权重和偏置值通常是不同的，因此对同一输入的输出结果也会不同。随机初始化的原因打破对称性：如果所有神经元阅读全文

posted @ 2025-06-23 01:25 m516606428 阅读(116) 评论(0) 推荐(0)

如果没指定wb 他是随机出一个结果么

摘要：如果没指定wb 他是随机出一个结果么权重 w: [[ 0.19638156 -0.06031747 0.02223001 -0.22013447 0.2537503 ]] 偏置 b: [0.03216214] 我可以理解这个每次出的都不一样么/ 是的，你理解得没错。在 PyTorch 中，当你创建阅读全文

posted @ 2025-06-23 01:25 m516606428 阅读(10) 评论(0) 推荐(0)

模型预测不准

摘要：这个模型当我[0.1358896, 0.59416669, 0.92579291, 0.41567412, 0.1358894] [0.1358891, 0.59416669, 0.92579291, 0.41567412, 0.1358894] [0.1358892, 0.59416669, 0. 阅读全文

posted @ 2025-06-23 00:22 m516606428 阅读(45) 评论(0) 推荐(0)

2025年6月22日

在 PyTorch 的线性层（nn.Linear）中，权重矩阵的维度顺序可能与你手动计算时的直觉相反

摘要：在 PyTorch 的线性层（nn.Linear）中，权重矩阵的维度顺序可能与你手动计算时的直觉相反，这是导致你感到困惑的主要原因。我来解释一下这个现象背后的原理，并提供代码示例帮助你理解。 1. 为什么需要 "转置"？在数学中，线性变换通常表示为 y = Wx + b，其中： x 是输入向量（维阅读全文

posted @ 2025-06-22 23:50 m516606428 阅读(138) 评论(0) 推荐(0)

线性层weight为什么如果是 10 给的就是根号下10分支1 正负范围 linear

摘要：在深度学习中，线性层（全连接层）的权重初始化范围通常设置为 [-1/√n, 1/√n]，其中 n 是输入神经元的数量（例如你提到的 10）。这种初始化方法被称为 Xavier 初始化（也称为 Glorot 初始化），其目的是保持信号在神经网络中的方差一致性，避免梯度消失或爆炸。为什么选择 1/√n 阅读全文

posted @ 2025-06-22 23:23 m516606428 阅读(27) 评论(0) 推荐(0)

torch.nn nn.module里面封装了什么为什么这些神经网络不纯手写呢

摘要： torch.nn.Module 是 PyTorch 中所有神经网络模块的基类，它封装了神经网络的核心功能，包括参数管理、前向传播、训练模式切换等。以下从三个维度解析其封装内容和使用价值：一、nn.Module 封装了什么？ 1. 参数自动管理 nn.Parameter：将张量注册为模型参数，自动加阅读全文

posted @ 2025-06-22 16:17 m516606428 阅读(49) 评论(0) 推荐(0)

代码演示bert的12层和一层代码上区别

摘要：在代码实现上，BERT 的层数差异主要体现在Transformer 编码器堆叠的数量和参数规模上。以下通过 PyTorch 代码对比单层 BERT 和 12 层 BERT 的核心差异（为简化说明，省略部分非关键细节）：一、核心结构对比 1. 单层 BERT（仅 1 个 Transformer 编码阅读全文

posted @ 2025-06-22 16:15 m516606428 阅读(42) 评论(0) 推荐(0)

手撕 Transformer 和手撕 bert区别

摘要： “手撕 Transformer” 和 “手撕 BERT” 虽然都涉及手动实现深度学习模型，但二者在目标、复杂度、应用场景和技术细节上存在显著差异。以下从多个维度对比分析：一、核心目标与应用场景对比项手撕 Transformer手撕 BERT 本质实现 Transformer 的基础架构（编码器阅读全文

posted @ 2025-06-22 16:11 m516606428 阅读(66) 评论(0) 推荐(0)

手撕transformer的意义

摘要： “手撕 Transformer” 通常指手动实现 Transformer 模型的核心代码（而非直接调用框架 API），这一过程对技术学习、研究和工程实践具有多重意义。以下从原理理解、技术提升、应用价值等维度展开分析：一、深入理解深度学习核心原理 1. 解构 Transformer 的底层逻辑 Tr 阅读全文

posted @ 2025-06-22 16:07 m516606428 阅读(131) 评论(0) 推荐(0)

公告