会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
20
下一页
2025年7月10日
贝叶斯公式与 GMM 的对应关系
摘要: 贝叶斯公式的一般形式为:\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\) 在 GMM 中,我们需要计算 “给定观测数据 x,它来自第 k 个高斯成分” 的后验概率 \(P(z=k | x)\),其对应关系如下: \(P(A)\):先验概率 对应 GMM 中 “隐
阅读全文
posted @ 2025-07-10 09:45 有何m不可
阅读(13)
评论(0)
推荐(0)
2025年7月5日
SMO算法原理
摘要: SMO(Sequential Minimal Optimization)算法是支持向量机(SVM)的一种高效优化算法,由微软研究院的 John Platt 在 1998 年提出。以下从通俗理解和详细推导两个方面进行介绍: 一、通俗理解 1. SVM 优化问题的本质 SVM 的目标是找到一个超平面,使
阅读全文
posted @ 2025-07-05 11:15 有何m不可
阅读(130)
评论(0)
推荐(0)
2025年7月4日
统计学习方法:核函数(Kernel function)
摘要: 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 一、核函数基本概念 先来看看核函数的定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。
阅读全文
posted @ 2025-07-04 23:04 有何m不可
阅读(22)
评论(0)
推荐(0)
2025年6月26日
强化学习之图解PPO算法和TD3算法
摘要: 转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q
阅读全文
posted @ 2025-06-26 23:23 有何m不可
阅读(258)
评论(0)
推荐(0)
强化学习之图解SAC算法
摘要: SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on
阅读全文
posted @ 2025-06-26 22:38 有何m不可
阅读(227)
评论(0)
推荐(0)
2025年6月25日
SAC为啥需要重参数化
摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\
阅读全文
posted @ 2025-06-25 15:10 有何m不可
阅读(58)
评论(0)
推荐(0)
2025年6月24日
大模型瘦身术:入门模型剪枝(Pruning),以Qwen2.5:0.5B为例
摘要: 转自:https://zhuanlan.zhihu.com/p/1916158805592474228 随着大语言模型(LLM)的参数量一路飙升,其巨大的部署成本和推理延迟成为了阻碍其广泛应用的关键瓶颈。如何在保持模型性能的同时,有效减小其体积?模型剪枝(Model Pruning) 正是解决这一问
阅读全文
posted @ 2025-06-24 18:48 有何m不可
阅读(147)
评论(0)
推荐(0)
2025年6月22日
强化学习中的奇怪概念(一)——On-policy与off-policy
摘要: 转自:https://zhuanlan.zhihu.com/p/346433931 本文主要介绍和梳理on-policy/off-policy概念,文章中内容的逻辑结构(同每小节标题)如下: 策略需要有探索能力(随机性) 策略如何做到随机探索? Off-policy方法——将收集数据当做一个单独的任
阅读全文
posted @ 2025-06-22 19:52 有何m不可
阅读(216)
评论(0)
推荐(0)
强化学习确定性策略与随机性策略区别
摘要: 强化学习中的确定性策略与随机性策略是两种核心策略类型,其区别体现在策略表示、决策方式、探索能力、应用场景等多个维度。以下从技术原理和实际应用角度展开详细分析: 一、核心定义与数学表达 1. 确定性策略(Deterministic Policy) 定义:给定状态 s,策略直接输出唯一确定的动作 a,表
阅读全文
posted @ 2025-06-22 17:59 有何m不可
阅读(250)
评论(0)
推荐(0)
off-policy 算法的核心机制
摘要: off-policy 算法能通过 \(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作: 重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。 最大化操作:如 Q-learning 直
阅读全文
posted @ 2025-06-22 17:51 有何m不可
阅读(13)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
20
下一页
公告