摘要:
目录参考RolloutBuffer 类 - 数据存储仓库ActorCritic 类 - PPO 的大脑3. PPO Agent 的 update 方法 - 核心训练逻辑完整代码 参考 https://iclr-blog-track.github.io/2022/03/25/ppo-implement 阅读全文
posted @ 2025-07-17 19:43
jack-chen666
阅读(234)
评论(0)
推荐(0)
摘要:
目录参考核心思想:拉格朗日对偶与约束优化1. SVM:经典的二次规划问题TRPO:迭代中的二次规划子问题 参考 https://gemini.google.com/app/7580b35a3150bf5a 核心思想:拉格朗日对偶与约束优化 在机器学习不同分支中“殊途同归”的经典优化思想,SVM和TR 阅读全文
posted @ 2025-07-17 17:38
jack-chen666
阅读(39)
评论(0)
推荐(0)
摘要:
目录参考内容背景GPTQ量化算法:利用海森矩阵进行精准“瘦身”TRPO算法:借助海森矩阵构建“信任区域”GPTQ与TRPO中海森矩阵应用的关联性分析 参考 https://g.co/gemini/share/6804174d7c5f 内容背景 海森矩阵在GPTQ与TRPO中的应用:关联性深度解析 在 阅读全文
posted @ 2025-07-17 16:37
jack-chen666
阅读(178)
评论(0)
推荐(0)
摘要:
目录参考1. 背景:从 TRPO 的复杂性中解脱2. PPO 的核心思想:裁剪代理目标函数 (Clipped Surrogate Objective)PPO 的完整算法与训练流程PPO 独特的训练流程代码实现(核心逻辑解读) 参考 https://newfacade.github.io/notes- 阅读全文
posted @ 2025-07-17 10:34
jack-chen666
阅读(303)
评论(0)
推荐(0)

浙公网安备 33010602011771号