上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页
摘要: 贝叶斯公式的一般形式为:\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\) 在 GMM 中,我们需要计算 “给定观测数据 x,它来自第 k 个高斯成分” 的后验概率 \(P(z=k | x)\),其对应关系如下: \(P(A)\):先验概率 对应 GMM 中 “隐 阅读全文
posted @ 2025-07-10 09:45 有何m不可 阅读(13) 评论(0) 推荐(0)
摘要: SMO(Sequential Minimal Optimization)算法是支持向量机(SVM)的一种高效优化算法,由微软研究院的 John Platt 在 1998 年提出。以下从通俗理解和详细推导两个方面进行介绍: 一、通俗理解 1. SVM 优化问题的本质 SVM 的目标是找到一个超平面,使 阅读全文
posted @ 2025-07-05 11:15 有何m不可 阅读(130) 评论(0) 推荐(0)
摘要: 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 一、核函数基本概念 先来看看核函数的定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。 阅读全文
posted @ 2025-07-04 23:04 有何m不可 阅读(22) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q 阅读全文
posted @ 2025-06-26 23:23 有何m不可 阅读(258) 评论(0) 推荐(0)
摘要: SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on 阅读全文
posted @ 2025-06-26 22:38 有何m不可 阅读(227) 评论(0) 推荐(0)
摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\ 阅读全文
posted @ 2025-06-25 15:10 有何m不可 阅读(58) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/1916158805592474228 随着大语言模型(LLM)的参数量一路飙升,其巨大的部署成本和推理延迟成为了阻碍其广泛应用的关键瓶颈。如何在保持模型性能的同时,有效减小其体积?模型剪枝(Model Pruning) 正是解决这一问 阅读全文
posted @ 2025-06-24 18:48 有何m不可 阅读(147) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/346433931 本文主要介绍和梳理on-policy/off-policy概念,文章中内容的逻辑结构(同每小节标题)如下: 策略需要有探索能力(随机性) 策略如何做到随机探索? Off-policy方法——将收集数据当做一个单独的任 阅读全文
posted @ 2025-06-22 19:52 有何m不可 阅读(216) 评论(0) 推荐(0)
摘要: 强化学习中的确定性策略与随机性策略是两种核心策略类型,其区别体现在策略表示、决策方式、探索能力、应用场景等多个维度。以下从技术原理和实际应用角度展开详细分析: 一、核心定义与数学表达 1. 确定性策略(Deterministic Policy) 定义:给定状态 s,策略直接输出唯一确定的动作 a,表 阅读全文
posted @ 2025-06-22 17:59 有何m不可 阅读(250) 评论(0) 推荐(0)
摘要: off-policy 算法能通过 \(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作: 重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。 最大化操作:如 Q-learning 直 阅读全文
posted @ 2025-06-22 17:51 有何m不可 阅读(13) 评论(0) 推荐(0)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页