上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页
摘要: 目录模型训练样本生成总结pytorch实现 参考:https://zhuanlan.zhihu.com/p/614498231 模型训练 我们可以直接基于原始数据 \(X_0\) 来对任意 \(t\) 步的 \(X_t\) 进行采样,那么在实际训练过程中,我们不必将所有的时间片都拿来训练。而采取直接 阅读全文
posted @ 2025-07-29 14:37 jack-chen666 阅读(22) 评论(0) 推荐(0)
摘要: 目录思想前向过程 (Forward Process)反向过程 (Reverse Process)损失函数核心组件:U-Net代码生成图像(采样)流程 (伪代码) 思想 扩散模型是一类强大的深度生成模型,它通过模仿物理学中的扩散过程来生成高质量的数据,尤其在图像生成领域取得了巨大的成功,例如大家熟知的 阅读全文
posted @ 2025-07-29 13:30 jack-chen666 阅读(19) 评论(0) 推荐(0)
摘要: 目录从身高分布理解“采样”将这个概念应用到图片上为什么这个视角如此重要?总结这个概率分布长什么样子?专业术语:流形(Manifold)AI眼中的分布是什么样子? 怎么理解 一张图片是一个概率分布采样的结果???这是一个非常深刻且核心的问题,理解了它,就等于理解了所有生成式模型(包括GAN、VAE以及 阅读全文
posted @ 2025-07-29 09:06 jack-chen666 阅读(76) 评论(0) 推荐(0)
摘要: from dataclasses import dataclass import gymnasium as gym import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch 阅读全文
posted @ 2025-07-18 17:11 jack-chen666 阅读(27) 评论(0) 推荐(0)
摘要: 目录参考当语言模型遇到强化学习PPO 在 trl 中的工作流程与核心公式4. 代码实现解读总结 参考 https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html https://gemini.google.c 阅读全文
posted @ 2025-07-18 11:42 jack-chen666 阅读(273) 评论(0) 推荐(0)
摘要: 目录参考RolloutBuffer 类 - 数据存储仓库ActorCritic 类 - PPO 的大脑3. PPO Agent 的 update 方法 - 核心训练逻辑完整代码 参考 https://iclr-blog-track.github.io/2022/03/25/ppo-implement 阅读全文
posted @ 2025-07-17 19:43 jack-chen666 阅读(171) 评论(0) 推荐(0)
摘要: 目录参考核心思想:拉格朗日对偶与约束优化1. SVM:经典的二次规划问题TRPO:迭代中的二次规划子问题 参考 https://gemini.google.com/app/7580b35a3150bf5a 核心思想:拉格朗日对偶与约束优化 在机器学习不同分支中“殊途同归”的经典优化思想,SVM和TR 阅读全文
posted @ 2025-07-17 17:38 jack-chen666 阅读(28) 评论(0) 推荐(0)
摘要: 目录参考内容背景GPTQ量化算法:利用海森矩阵进行精准“瘦身”TRPO算法:借助海森矩阵构建“信任区域”GPTQ与TRPO中海森矩阵应用的关联性分析 参考 https://g.co/gemini/share/6804174d7c5f 内容背景 海森矩阵在GPTQ与TRPO中的应用:关联性深度解析 在 阅读全文
posted @ 2025-07-17 16:37 jack-chen666 阅读(141) 评论(0) 推荐(0)
摘要: 目录参考1. 背景:从 TRPO 的复杂性中解脱2. PPO 的核心思想:裁剪代理目标函数 (Clipped Surrogate Objective)PPO 的完整算法与训练流程PPO 独特的训练流程代码实现(核心逻辑解读) 参考 https://newfacade.github.io/notes- 阅读全文
posted @ 2025-07-17 10:34 jack-chen666 阅读(234) 评论(0) 推荐(0)
摘要: 目录reference背景:普通策略梯度 (PG) 方法的“致命缺陷”TRPO 的核心思想:如何求解?—— 近似与共轭梯度实际算法:共轭梯度法 (Conjugate Gradient)TRPO 的完整更新步骤:代码实现(概念解读)总结与展望代码走读计算普通策略梯度 g费雪-向量乘积 (FVP) Hv 阅读全文
posted @ 2025-07-16 19:57 jack-chen666 阅读(67) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页