上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 34 下一页
摘要: 目录参考核心思想:拉格朗日对偶与约束优化1. SVM:经典的二次规划问题TRPO:迭代中的二次规划子问题 参考 https://gemini.google.com/app/7580b35a3150bf5a 核心思想:拉格朗日对偶与约束优化 在机器学习不同分支中“殊途同归”的经典优化思想,SVM和TR 阅读全文
posted @ 2025-07-17 17:38 jack-chen666 阅读(39) 评论(0) 推荐(0)
摘要: 目录参考内容背景GPTQ量化算法:利用海森矩阵进行精准“瘦身”TRPO算法:借助海森矩阵构建“信任区域”GPTQ与TRPO中海森矩阵应用的关联性分析 参考 https://g.co/gemini/share/6804174d7c5f 内容背景 海森矩阵在GPTQ与TRPO中的应用:关联性深度解析 在 阅读全文
posted @ 2025-07-17 16:37 jack-chen666 阅读(178) 评论(0) 推荐(0)
摘要: 目录参考1. 背景:从 TRPO 的复杂性中解脱2. PPO 的核心思想:裁剪代理目标函数 (Clipped Surrogate Objective)PPO 的完整算法与训练流程PPO 独特的训练流程代码实现(核心逻辑解读) 参考 https://newfacade.github.io/notes- 阅读全文
posted @ 2025-07-17 10:34 jack-chen666 阅读(303) 评论(0) 推荐(0)
摘要: 目录reference背景:普通策略梯度 (PG) 方法的“致命缺陷”TRPO 的核心思想:如何求解?—— 近似与共轭梯度实际算法:共轭梯度法 (Conjugate Gradient)TRPO 的完整更新步骤:代码实现(概念解读)总结与展望代码走读计算普通策略梯度 g费雪-向量乘积 (FVP) Hv 阅读全文
posted @ 2025-07-16 19:57 jack-chen666 阅读(84) 评论(0) 推荐(0)
摘要: 目录参考内容优势估计的“两难困境”GAE 的核心思想与公式GAE 的代码实现总结 参考 https://g.co/gemini/share/e45888162cfb https://newfacade.github.io/notes-on-reinforcement-learning/13-gae. 阅读全文
posted @ 2025-07-16 17:35 jack-chen666 阅读(303) 评论(0) 推荐(0)
摘要: 想象一下,你是一位国王,想让你的弓箭手们射箭射得更准。这里的“更准”就是我们要最大化的目标 J(θ),而 θ 就是你给弓箭手们的“指导方针”(比如,往哪个方向瞄准,用多大的力气等等)。 我们想调整这个“指导方针” θ,让所有弓箭手射出的箭靶得分的期望(平均分)最高。 J(θ) = E[R(τ)] J 阅读全文
posted @ 2025-07-15 20:47 jack-chen666 阅读(105) 评论(0) 推荐(0)
摘要: 目录参考内容为什么需要 Actor-Critic?—— REINFORCE 的痛点Actor-Critic 架构:两位一体的合作核心思想:用“优势”替代“回报”如何计算优势函数?—— TD 误差的登场算法与更新公式代码实现解读模型定义 参考 https://newfacade.github.io/n 阅读全文
posted @ 2025-07-15 15:57 jack-chen666 阅读(723) 评论(0) 推荐(0)
摘要: 目录参考内容为什么要直接学习策略?核心思想:参数化策略与目标函数数学核心:策略梯度定理REINFORCE 算法:一种简单的实现代码解读 (以CartPole为例)总结与展望完整代码 参考 https://gemini.google.com/app/247cc5d3d5bad7de https://n 阅读全文
posted @ 2025-07-14 16:39 jack-chen666 阅读(175) 评论(0) 推荐(0)
摘要: 目录参考内容代码背景回顾准备工作:环境、参数与经验回放动作选择 (select_action)模型优化 (optimize_model)主训练循环全部代码 参考 https://newfacade.github.io/notes-on-reinforcement-learning/10-dqn-to 阅读全文
posted @ 2025-07-14 00:01 jack-chen666 阅读(64) 评论(0) 推荐(0)
摘要: 目录参考内容1. 从 Q-table 到 Q-Network如何训练 Q-Network?—— 损失函数技巧一:经验回放 (Experience Replay)技巧二:固定Q目标 (Fixed Q-Targets)DQN 算法完整流程 参考 https://g.co/gemini/share/001 阅读全文
posted @ 2025-07-13 21:38 jack-chen666 阅读(39) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 34 下一页