2025 年 7月 17 日随笔档案 - jack-chen666

2025年7月17日

摘要：目录参考RolloutBuffer 类 - 数据存储仓库ActorCritic 类 - PPO 的大脑3. PPO Agent 的 update 方法 - 核心训练逻辑完整代码参考 https://iclr-blog-track.github.io/2022/03/25/ppo-implement 阅读全文

posted @ 2025-07-17 19:43 jack-chen666 阅读(234) 评论(0) 推荐(0)

大模型- 强化学习-SVM算法与TRPO 中的拉格朗日二次优化--91

摘要：目录参考核心思想：拉格朗日对偶与约束优化1. SVM：经典的二次规划问题TRPO：迭代中的二次规划子问题参考 https://gemini.google.com/app/7580b35a3150bf5a 核心思想：拉格朗日对偶与约束优化在机器学习不同分支中“殊途同归”的经典优化思想，SVM和TR 阅读全文

posted @ 2025-07-17 17:38 jack-chen666 阅读(39) 评论(0) 推荐(0)

大模型- 强化学习-GPTQ量化算法与TRPO中的海森矩阵--90

摘要：目录参考内容背景GPTQ量化算法：利用海森矩阵进行精准“瘦身”TRPO算法：借助海森矩阵构建“信任区域”GPTQ与TRPO中海森矩阵应用的关联性分析参考 https://g.co/gemini/share/6804174d7c5f 内容背景海森矩阵在GPTQ与TRPO中的应用：关联性深度解析在阅读全文

posted @ 2025-07-17 16:37 jack-chen666 阅读(178) 评论(0) 推荐(0)

大模型- 强化学*-*端策略优化PPO--89

摘要：目录参考1. 背景：从 TRPO 的复杂性中解脱2. PPO 的核心思想：裁剪代理目标函数 (Clipped Surrogate Objective)PPO 的完整算法与训练流程PPO 独特的训练流程代码实现（核心逻辑解读）参考 https://newfacade.github.io/notes- 阅读全文

posted @ 2025-07-17 10:34 jack-chen666 阅读(303) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情