随笔分类 -  研究生

1 2 3 4 5 ··· 10 下一页
摘要:消融实验(Ablation Study)的核心思想是“通过删除或替换系统的某些部分,观察性能变化,从而量化这些部分对整体效果的贡献”。它类似于控制变量法,常用于机器学习、计算机视觉、神经网络等复杂系统,以验证某个模块、策略或特征是否真正有效。 一、定义与本质 本质:通过“去掉某个组件”或“替换某个策 阅读全文
posted @ 2025-12-09 16:19 yinghualeihenmei 阅读(109) 评论(0) 推荐(0)
摘要:CRNN(Convolutional Recurrent Neural Network)是一种用于图像序列识别的端到端可训练神经网络,特别擅长处理场景文本识别任务 。CRNN 的核心架构包括三个主要部分:卷积层(CNN)、循环层(RNN)和转录层(Transcription Layer),结合 CT 阅读全文
posted @ 2025-12-06 22:00 yinghualeihenmei 阅读(34) 评论(0) 推荐(0)
摘要:MD-FPN 是一种优化的特征金字塔网络结构,旨在提高多尺度目标检测的性能。它通过引入多尺度预测融合和注意力机制,增强了特征提取能力 MD-FPN(Multi-Dilation Feature Pyramid Network)可以与 Faster R-CNN 结合使用,以提升模型对多尺度目标的检测能 阅读全文
posted @ 2025-12-06 21:55 yinghualeihenmei 阅读(11) 评论(0) 推荐(0)
摘要:Focal Loss 是一种用于解决类别不平衡问题的损失函数,特别适用于目标检测任务。在目标检测中,背景类别通常远多于目标类别,这导致模型在训练过程中对背景类别过度拟合,而忽视了目标类别。Focal Loss 通过调整损失函数的权重,使得模型更关注难以分类的样本,从而提高模型对目标类别的检测能力。 阅读全文
posted @ 2025-12-06 21:36 yinghualeihenmei 阅读(16) 评论(0) 推荐(0)
摘要:21.3 FPS(Frames Per Second)的实时处理能力”是指一个系统或模型能够在每秒处理大约21.3帧图像或视频数据。这个指标通常用于衡量计算机视觉模型(如目标检测、分割等)在实时应用中的性能。 21.3 FPS 的意义 实时性: 21.3 FPS 表示系统能够在大约每秒处理21.3帧 阅读全文
posted @ 2025-12-06 21:25 yinghualeihenmei 阅读(28) 评论(0) 推荐(0)
摘要:“收敛至约0.28”这个表述通常出现在描述模型训练过程中的某个指标(如损失函数值或准确率等)逐渐稳定并接近某个特定值(这里是0.28)的情况。具体含义取决于上下文,以下是一些可能的解释和应用场景: 1. 损失函数收敛至约0.28 在训练深度学习模型时,损失函数(Loss Function)是衡量模型 阅读全文
posted @ 2025-12-06 21:01 yinghualeihenmei 阅读(31) 评论(0) 推荐(0)
摘要:在深度学习中,冻结预训练层策略(Freezing Pre-trained Layers)是一种常见的技术,尤其是在使用预训练模型进行迁移学习(Transfer Learning)时。这种策略的核心思想是将预训练模型的一部分层(通常是早期层)冻结,即在训练过程中不更新这些层的权重,而只训练模型的其他部 阅读全文
posted @ 2025-12-06 20:55 yinghualeihenmei 阅读(38) 评论(0) 推荐(0)
摘要:学习率衰减策略(Learning Rate Decay)是深度学习中一种重要的技术,用于在训练过程中动态调整学习率。这种策略可以帮助模型在训练初期快速收敛,并在训练后期更精细地调整权重,从而提高模型的性能和泛化能力。 学习率衰减策略(Learning Rate Decay)的核心功能就是自动降低学习 阅读全文
posted @ 2025-12-06 20:34 yinghualeihenmei 阅读(46) 评论(0) 推荐(0)
摘要:在深度学习中,权重衰减(Weight Decay) 是一种常用的正则化技术,用于防止模型过拟合。它通过在损失函数中添加一个正则化项来限制模型的复杂度,从而提高模型的泛化能力。 权重衰减(Weight Decay)通常在整个训练过程中都使用,而不是仅在某个特定阶段。在 Faster R-CNN 的训练 阅读全文
posted @ 2025-12-06 20:28 yinghualeihenmei 阅读(36) 评论(0) 推荐(0)
摘要:在动量优化算法中,动量参数(通常用 β 表示)用于控制上一次梯度更新对当前更新的影响程度。动量参数的值在 0 到 1 之间,0.9 是一个常见的选择,它可以帮助优化算法更快地收敛,并且减少震荡。 动量(Momentum) 通常在整个训练过程中都使用,而不是仅在某个特定阶段。 在 Faster R-C 阅读全文
posted @ 2025-12-06 20:23 yinghualeihenmei 阅读(14) 评论(0) 推荐(0)
摘要:训练轮数(Epochs) = 完整遍历整个训练集的次数,是控制模型学习深度的核心超参数。 一、定义与计算 1个Epoch = 所有训练样本都参与一次梯度更新 Python 复制 # 示例:8000张图纸,batch_size=4 num_images = 8000 batch_size = 4 # 阅读全文
posted @ 2025-12-06 19:58 yinghualeihenmei 阅读(41) 评论(0) 推荐(0)
摘要:深度学习的"批量大小" Batch Size = 每次梯度更新时使用的训练样本数量。 梯度更新 = 参数更新,两者是同一过程的不同表述。 梯度更新发生在反向传播(Backward Pass)之后、优化器调用step()的瞬间。 作用于 Faster R-CNN 的所有可训练参数,而非某个特定模块内部 阅读全文
posted @ 2025-12-06 19:54 yinghualeihenmei 阅读(10) 评论(0) 推荐(0)
摘要:初始学习率 0.002 是 Faster R-CNN 精细微调场景下的保守配置,比标准值 0.02 小10倍,适用于迁移学习冻结Backbone或Warmup预热阶段。 一、0.002 的使用场景 场景1:分层学习率中的Backbone Python 复制 # Backbone微调慢,Head训练快 阅读全文
posted @ 2025-12-06 19:31 yinghualeihenmei 阅读(14) 评论(0) 推荐(0)
摘要:Anchor宽高比是Anchor的形状参数,与尺寸(Scale)共同决定每个候选框的具体高宽像素值。 通用场景(COCO) yaml 复制 # 3种比例覆盖大部分目标 ASPECT_RATIOS: [0.5, 1.0, 2.0] # 0.5: 高大于宽 (人、柱子) # 1.0: 正方形 (车辆、盘 阅读全文
posted @ 2025-12-06 17:42 yinghualeihenmei 阅读(12) 评论(0) 推荐(0)
摘要:Anchor尺寸 {16, 32, 64, 128} 是建筑图纸检测的极致精简配置,专为小目标密集+资源受限场景设计。 一、核心参数解码 Python 复制 # 对应FPN的4个层级 P3(stride=8): scale=16 → 实际尺寸 128×128px # 符号、标记 P4(stride= 阅读全文
posted @ 2025-12-06 17:40 yinghualeihenmei 阅读(47) 评论(0) 推荐(0)
摘要:统一管理所有可训练参数的更新,而非作用于某个局部模块。 一、全局视角:SGD管理哪些参数? Python 复制 # Faster R-CNN可训练参数总览 model = FasterRCNN( backbone=ResNet50(), # 包含 conv1~conv5_x, BN层 rpn=RPN 阅读全文
posted @ 2025-12-06 17:35 yinghualeihenmei 阅读(10) 评论(0) 推荐(0)
摘要:是的,但远不止改变图片大小这么简单。 一、尺度变换 = 改变图像分辨率 最直接的定义:将图像从原始尺寸(如 3000×2000)缩放到另一尺寸(如 800×600 或 4000×3000)。 阅读全文
posted @ 2025-12-06 13:50 yinghualeihenmei 阅读(15) 评论(0) 推荐(0)
摘要:在 IoU阈值从0.5到0.95 的范围内,每隔 0.05 计算一个AP,然后取平均值。 mAP@[.5:.95]=101​IoU=0.5∑0.95​APIoU​ 具体IoU阈值序列: [0.5,0.55,0.6,0.65,0.7,0.75,0.8,0.85,0.9,0.95] 共 10个 阈值点, 阅读全文
posted @ 2025-12-06 13:46 yinghualeihenmei 阅读(35) 评论(0) 推荐(0)
摘要:“与真实信号无关、可量化、可预测的随机扰动强度分布”;它既可以是统计标准差,也可以是模型残差,或物理采集误差,最终被画成一张“强度图”供算法使用。 阅读全文
posted @ 2025-12-06 02:37 yinghualeihenmei 阅读(7) 评论(0) 推荐(0)
摘要:1. CubiCasa5K 规模:5 000 张真实楼盘平面图 标注:SVG 多边形,80+ 类别(墙、门、窗、家具等);官方划分 train/val/test = 4200/400/400 特点:目前最大、最丰富的栅格平面图片集;分辨率 430×485 ~ 6316×14304 px;支持多任务( 阅读全文
posted @ 2025-12-06 02:33 yinghualeihenmei 阅读(44) 评论(0) 推荐(0)

1 2 3 4 5 ··· 10 下一页