会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Big-Yellow-J
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2025年1月29日
深度学习基础理论————混合专家模型(MoE)/KV-cache
摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈
阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J
阅读(1117)
评论(0)
推荐(0)
2025年1月24日
深度学习基础理论————CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码
摘要: 主要介绍在CV中常用的Backbone原理简易代码(代码以及原理经常更新),参考论文中的表格,对不同的任务所使用的backbone如下: 针对上面内容分为两块内容:1、基于卷积神经网络的CV Backbone:1.Resnet系列;2.Unet系列等;2、基于Transformer的 CV Back
阅读全文
posted @ 2025-01-24 17:44 Big-Yellow-J
阅读(1058)
评论(0)
推荐(2)
2025年1月18日
机器学习基础原理————可解释性Shap Value原理及代码
摘要: 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种药物对病⼈的疗效。还是想知道为什么做出这样的预测?这种情况下可能为了可解
阅读全文
posted @ 2025-01-18 11:47 Big-Yellow-J
阅读(1701)
评论(0)
推荐(0)
机器学习基础原理————贝叶斯优化原理及代码实现
摘要: 本文通过结合如下论文以及blog: 1、贝叶斯优化研究综述:https://doi.org/10.13328/j.cnki.jos.005607. 2、高斯回归可视化:https://jgoertler.com/visual-exploration-gaussian-processes/ 3、贝叶斯
阅读全文
posted @ 2025-01-18 11:46 Big-Yellow-J
阅读(1472)
评论(0)
推荐(0)
机器学习基础原理————可解释性LIME原理
摘要: More: https://www.big-yellow-j.top/ 如果⼀个机器学习模型运⾏良好,为什么我们仅仅信任该模型⽽忽略为什么做出特定的决策呢? 诸如分类准确性之类的单⼀指标⽆法完整地描述⼤多数实际任务。当涉及到预测模型时,需要作出权衡:你是只想知道预测是什么?例如,客户流失的概率或某种
阅读全文
posted @ 2025-01-18 11:37 Big-Yellow-J
阅读(442)
评论(0)
推荐(0)
2025年1月13日
深度学习基础理论————DeepSpeed
摘要: DeepSpeed原理 DeepSpeed 是由微软开发的一种深度学习优化库,专为高性能训练和推理而设计,尤其适用于大规模深度学习模型(如 GPT 系列、BERT 等)。它通过一系列技术和优化策略,帮助研究者和开发者高效利用硬件资源,实现快速训练、降低内存使用以及提升推理速度。 正如其官方描述那样:
阅读全文
posted @ 2025-01-13 20:08 Big-Yellow-J
阅读(1299)
评论(0)
推荐(0)
2025年1月3日
深度学习基础理论————训练加速(单/半/混合精度训练)/显存优化(gradient-checkpoint)
摘要: 主要介绍单精度/半精度/混合精度训练,以及部分框架(DeepSpeed/Apex) 不同精度训练 单精度训练(single-precision)指的是用32位浮点数(FP32)表示所有的参数、激活值和梯度 半精度训练(half-precision)指的是用16位浮点数(FP16 或 BF16)表示数
阅读全文
posted @ 2025-01-03 19:33 Big-Yellow-J
阅读(1072)
评论(0)
推荐(0)
2025年1月1日
深度学习基础理论————分布式训练(模型并行/数据并行/流水线并行/张量并行)
摘要: 主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码 模型并行 是指将一个模型的不同部分(如层或子模块)分配到不同的设备上运行。它通常用于非常大的模型,这些模型无法完整地放入单个设备的内存中。在模型并行中,数据会顺序通过各个层,即一层处理完所有数据之后再传递给下一层。这意味着,在任
阅读全文
posted @ 2025-01-01 16:58 Big-Yellow-J
阅读(3632)
评论(0)
推荐(0)
2024年12月18日
深度学习基础理论————学习率优化方法(AdaGrad/RMSprop/Adam/Warm-UP)
摘要: 学习率基础[1] 学习率(Learning Rate)在优化算法,尤其是梯度下降和其变体中,扮演着至关重要的角色。它影响着模型训练的速度和稳定性,并且是实现模型优化的关键参数之一。 如何理解呢? 在统计学中,线性方程的优化过程通常包括以下步骤: 构建方程:定义一个模型,例如线性方程 (y = wx
阅读全文
posted @ 2024-12-18 17:40 Big-Yellow-J
阅读(1008)
评论(0)
推荐(1)
深度学习基础理论————"优化"方法(归一化/dropout)
摘要: 深度学习基础理论————"优化"方法(归一化/dropout) 1、归一化方法(LayerNorm/BatchNorm/GroupNorm) 归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, Gr
阅读全文
posted @ 2024-12-18 17:39 Big-Yellow-J
阅读(282)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告
levels of contents