上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页
摘要: 一、Adam 优化器参数大白话解释 1. 学习率(lr: 0.001) 类比:学习率就像你在黑暗中摸索宝藏时的 “步伐大小”。 如果步子太大(比如 lr=0.1):你可能一脚迈过宝藏,永远找不到它。 如果步子太小(比如 lr=0.0001):你要花很长时间才能慢慢靠近宝藏。 你代码里的 lr=0.0 阅读全文
posted @ 2025-06-23 21:06 m516606428 阅读(145) 评论(0) 推荐(0)
摘要: 在 PyTorch 训练中,当样本总数不能被 Batch Size 整除时,代码的处理方式需要特别注意。以你的问题为例,假设train_sample=50,batch_size=20,我们来详细分析: 1. 整除与非整除的计算逻辑 当train_sample=50,batch_size=20时: 总 阅读全文
posted @ 2025-06-23 20:56 m516606428 阅读(154) 评论(0) 推荐(0)
摘要: 在实际业务场景中,Dropout 和 Batch Normalization(BN)层的应用非常广泛,以下是结合具体业务场景的举例说明,帮助你理解何时需要使用这些层: 一、Dropout 层的典型应用场景 1. 计算机视觉:图像分类与目标检测 场景:自动驾驶中的交通标志识别、医疗影像中的肿瘤检测。 阅读全文
posted @ 2025-06-23 20:55 m516606428 阅读(61) 评论(0) 推荐(0)
摘要: 1. 什么是「权重」和「梯度」? 权重(Weight):模型中的「记忆」,就像你记住「非常好」「超赞」这类词通常表示好评,「很差」「退钱」这类词通常表示差评。模型通过调整权重来学习哪些词更能体现情感倾向。 梯度(Gradient):告诉你「哪里学错了」和「怎么改」。比如模型把「这个手机虽然便宜,但质 阅读全文
posted @ 2025-06-23 20:48 m516606428 阅读(69) 评论(0) 推荐(0)
摘要: 什么是「权重」和「梯度」? 权重(Weight):模型中的参数,就像大脑中的「记忆」。比如你学骑自行车时,记住「车头向左偏时要向右打方向盘」,这个「经验」就是神经网络中的权重。模型通过调整权重来「学习」数据中的规律。 梯度(Gradient):可以理解为「错误的方向」和「错误的程度」。想象你在爬山, 阅读全文
posted @ 2025-06-23 20:31 m516606428 阅读(283) 评论(0) 推荐(0)
摘要: 在 PyTorch 中,训练循环里计算梯度、更新权重等操作的顺序是固定的,具体如下: 前向传播计算损失: python 运行 loss = model(x, y) # 前向传播计算预测值和损失 反向传播计算梯度: python 运行 loss.backward() # 反向传播计算梯度 根据梯度更新 阅读全文
posted @ 2025-06-23 20:29 m516606428 阅读(69) 评论(0) 推荐(0)
摘要: 这段代码使用 PyTorch 的 Adam 优化器来配置模型的参数更新策略。具体解释如下: 代码功能 python 运行 optim = torch.optim.Adam(model.parameters(), lr=learning_rate) torch.optim.Adam:PyTorch 提 阅读全文
posted @ 2025-06-23 10:29 m516606428 阅读(82) 评论(0) 推荐(0)
摘要: 在 PyTorch 中,Adam 是一种常用的优化算法,它结合了 Adagrad 和 RMSProp 的优点。你提供的参数是 Adam 优化器的配置,下面解释各参数的含义: amsgrad(布尔值)是否使用 AMSGrad 变体。AMSGrad 通过使用梯度二阶矩的最大值而不是指数移动平均值来保证收 阅读全文
posted @ 2025-06-23 10:10 m516606428 阅读(75) 评论(0) 推荐(0)
摘要: 在预测阶段不计算梯度主要出于以下几个原因: 1. 计算效率与内存优化 梯度计算开销大:在深度学习中,梯度计算需要存储中间变量(如激活值、权重等),并执行反向传播算法。预测阶段仅需前向传播,关闭梯度计算可节省约 50% 的内存和计算资源。 示例:对于大型模型(如 BERT),关闭梯度可显著提升推理速度 阅读全文
posted @ 2025-06-23 01:37 m516606428 阅读(15) 评论(0) 推荐(0)
摘要: # 当输入真实标签,返回loss值;无真实标签,返回预测值 def forward(self, x, y=None): x = self.linear(x) # (batch_size, input_size) -> (batch_size, 1) y_pred = self.activation( 阅读全文
posted @ 2025-06-23 01:31 m516606428 阅读(30) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页