会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
21
下一页
2025年7月17日
[LLM]大模型训练DeepSpeed(三)
摘要: 转自:https://blog.csdn.net/zwqjoy/article/details/138274598 优化器和调度器当不使用offload_optimizer 时,可以按照下表,混合使用HF和DS的优化器和迭代器,除了HF Scheduler和DS Optimizer这一种情况。 Co
阅读全文
posted @ 2025-07-17 13:43 有何m不可
阅读(182)
评论(0)
推荐(0)
2025年7月11日
均匀量化
摘要: 均匀量化是一种将连续范围的数值(比如浮点数)转换为有限个离散值的过程,类似于用有限的 “箱子” 去装无限的数值。想象你有一堆不同身高的人(连续值),但你只能用几个固定的身高区间(比如 “150-160cm”、“160-170cm” 等)去分类他们,这就是量化的基本思想。 关键概念类比 缩放因子(Sc
阅读全文
posted @ 2025-07-11 17:14 有何m不可
阅读(79)
评论(0)
推荐(0)
图解 Fine-tuning:LoRA 系列微调技术概述
摘要: 转自:https://zhuanlan.zhihu.com/p/990958034 Fine-tuning (微调),是指在新数据集上调整预训练模型的权重,从而提高模型在特定领域,或特定任务上的性能。下图演示了这一过程: LoRA 是近年来对大模型最重要的贡献之一,它通过只修改模型一小部分的参数,重
阅读全文
posted @ 2025-07-11 12:09 有何m不可
阅读(2761)
评论(0)
推荐(0)
2025年7月10日
大模型高效微调-LoRA原理详解和训练过程深入分析
摘要: 一、LoRA原理 转自:https://zhuanlan.zhihu.com/p/702629428 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所得的增量参数,从而达
阅读全文
posted @ 2025-07-10 12:10 有何m不可
阅读(2367)
评论(0)
推荐(1)
贝叶斯公式与 GMM 的对应关系
摘要: 贝叶斯公式的一般形式为:\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\) 在 GMM 中,我们需要计算 “给定观测数据 x,它来自第 k 个高斯成分” 的后验概率 \(P(z=k | x)\),其对应关系如下: \(P(A)\):先验概率 对应 GMM 中 “隐
阅读全文
posted @ 2025-07-10 09:45 有何m不可
阅读(21)
评论(0)
推荐(0)
2025年7月5日
SMO算法原理
摘要: SMO(Sequential Minimal Optimization)算法是支持向量机(SVM)的一种高效优化算法,由微软研究院的 John Platt 在 1998 年提出。以下从通俗理解和详细推导两个方面进行介绍: 一、通俗理解 1. SVM 优化问题的本质 SVM 的目标是找到一个超平面,使
阅读全文
posted @ 2025-07-05 11:15 有何m不可
阅读(220)
评论(0)
推荐(0)
2025年7月4日
统计学习方法:核函数(Kernel function)
摘要: 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 一、核函数基本概念 先来看看核函数的定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。
阅读全文
posted @ 2025-07-04 23:04 有何m不可
阅读(28)
评论(0)
推荐(0)
2025年6月26日
强化学习之图解PPO算法和TD3算法
摘要: 转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q
阅读全文
posted @ 2025-06-26 23:23 有何m不可
阅读(348)
评论(0)
推荐(0)
强化学习之图解SAC算法
摘要: SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on
阅读全文
posted @ 2025-06-26 22:38 有何m不可
阅读(397)
评论(0)
推荐(0)
2025年6月25日
SAC为啥需要重参数化
摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\
阅读全文
posted @ 2025-06-25 15:10 有何m不可
阅读(92)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
21
下一页
公告