上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 21 下一页
摘要: 转自:https://blog.csdn.net/zwqjoy/article/details/138274598 优化器和调度器当不使用offload_optimizer 时,可以按照下表,混合使用HF和DS的优化器和迭代器,除了HF Scheduler和DS Optimizer这一种情况。 Co 阅读全文
posted @ 2025-07-17 13:43 有何m不可 阅读(182) 评论(0) 推荐(0)
摘要: 均匀量化是一种将连续范围的数值(比如浮点数)转换为有限个离散值的过程,类似于用有限的 “箱子” 去装无限的数值。想象你有一堆不同身高的人(连续值),但你只能用几个固定的身高区间(比如 “150-160cm”、“160-170cm” 等)去分类他们,这就是量化的基本思想。 关键概念类比 缩放因子(Sc 阅读全文
posted @ 2025-07-11 17:14 有何m不可 阅读(79) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/990958034 Fine-tuning (微调),是指在新数据集上调整预训练模型的权重,从而提高模型在特定领域,或特定任务上的性能。下图演示了这一过程: LoRA 是近年来对大模型最重要的贡献之一,它通过只修改模型一小部分的参数,重 阅读全文
posted @ 2025-07-11 12:09 有何m不可 阅读(2761) 评论(0) 推荐(0)
摘要: 一、LoRA原理 转自:https://zhuanlan.zhihu.com/p/702629428 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所得的增量参数,从而达 阅读全文
posted @ 2025-07-10 12:10 有何m不可 阅读(2367) 评论(0) 推荐(1)
摘要: 贝叶斯公式的一般形式为:\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\) 在 GMM 中,我们需要计算 “给定观测数据 x,它来自第 k 个高斯成分” 的后验概率 \(P(z=k | x)\),其对应关系如下: \(P(A)\):先验概率 对应 GMM 中 “隐 阅读全文
posted @ 2025-07-10 09:45 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: SMO(Sequential Minimal Optimization)算法是支持向量机(SVM)的一种高效优化算法,由微软研究院的 John Platt 在 1998 年提出。以下从通俗理解和详细推导两个方面进行介绍: 一、通俗理解 1. SVM 优化问题的本质 SVM 的目标是找到一个超平面,使 阅读全文
posted @ 2025-07-05 11:15 有何m不可 阅读(220) 评论(0) 推荐(0)
摘要: 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 一、核函数基本概念 先来看看核函数的定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。 阅读全文
posted @ 2025-07-04 23:04 有何m不可 阅读(28) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q 阅读全文
posted @ 2025-06-26 23:23 有何m不可 阅读(348) 评论(0) 推荐(0)
摘要: SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on 阅读全文
posted @ 2025-06-26 22:38 有何m不可 阅读(397) 评论(0) 推荐(0)
摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\ 阅读全文
posted @ 2025-06-25 15:10 有何m不可 阅读(92) 评论(0) 推荐(0)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 21 下一页