会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
aibi1
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
81
下一页
2026年4月1日
强化学习DPO-数学基本概念
摘要: 目录1) 概率(模型输出 token 概率)你要记住2) log 概率(训练里常用)直觉3) 损失函数(loss 越小越好)一句话4) 梯度下降(参数怎么改)直觉比喻四个概念串成一条链 太好了,这 4 个概念是你后面学 DPO/RL 的地基。我用同一个小例子串起来讲,你会更容易记住。 假设用户问:
阅读全文
posted @ 2026-04-01 08:53 向着朝阳
阅读(2)
评论(0)
推荐(0)
2026年3月31日
智能客服强化学习
摘要: 目录结论为什么客服更不能直接上 RL客服里常见的奖励信号(给你参考)客服落地推荐(最实用)Phase 1(先上线)Phase 2(提升体验)Phase 3(追求转化或效率)结论先说为什么不会全靠 RL?未来主流架构(你可以这么理解)RL 在这里主要干什么? 是的,智能客服场景也基本是这个玩法,而且比
阅读全文
posted @ 2026-03-31 22:05 向着朝阳
阅读(1)
评论(0)
推荐(0)
强化学习学习路径
摘要: 目录先一句话如果你做 LLM/Agent 落地什么时候“只学 DPO”也够用?什么时候必须学更完整 RL? 不够。DPO 很重要,但不是“强化学习全貌”。 先一句话 DPO:更像“偏好学习/对齐”的高性价比方法,工程上很好用。 RL(广义):还包括策略梯度、PPO/GRPO、奖励建模、探索、信用分配
阅读全文
posted @ 2026-03-31 21:54 向着朝阳
阅读(4)
评论(0)
推荐(0)
强化学习训练PAPO方法
摘要: 目录为什么“分开归一化”这么关键?PAPO 训练怎么实现(通俗版)第 1 步:对同一个题目,生成一组回答第 2 步:给每个回答打“结果分”(ORM)第 3 步:给回答打“过程分”(PRM)第 4 步:关键改造——“分开归一化”4.1 结果优势 (A_out)伪代码这段代码的关键点(你记这3句就够)如
阅读全文
posted @ 2026-03-31 08:39 向着朝阳
阅读(2)
评论(0)
推荐(0)
2026年3月30日
WebUI -主要参数配置
摘要: 目录1) Sampling Steps(步数)2) CFG Scale(提示词遵循度)3) Sampler(采样器)+ Scheduler4) Seed(随机种子)5) Size(分辨率)6) Batch size / Batch count7) Hires.fix(高清修复)8) Denoisin
阅读全文
posted @ 2026-03-30 21:43 向着朝阳
阅读(6)
评论(0)
推荐(0)
Denoising strength(在 img2img / inpaint 很关键)
摘要: 目录一句话先记住它到底在做什么(原理直觉)在不同模式下怎么理解1) img2img(整图改造)2) inpaint(局部重绘)最实用的区间建议(直接抄)和 Steps 的关系(你也会遇到)常见误区给你一个可执行的小实验(最快理解) 非常好的问题。这个参数确实是 img2img / inpaint 里
阅读全文
posted @ 2026-03-30 21:41 向着朝阳
阅读(14)
评论(0)
推荐(0)
WebUI 提示词如何编写
摘要: 目录1) 基本结构(最实用)2) 一个可直接用的模板正向模板负向模板3) 示例(写实人像)正向负向4) 示例(二次元)正向负向5) 提示词实战规则(重点)6) 常见问题 好问题。A1111(或同类 WebUI)里提示词写法可以用一个固定模板,先稳,再慢慢玩花样。 1) 基本结构(最实用) 正向 Pr
阅读全文
posted @ 2026-03-30 21:30 向着朝阳
阅读(3)
评论(0)
推荐(0)
2026年3月29日
Diffusion学习路径
摘要: 目录学习路径(建议 6 阶段)阶段 1:先跑通(1周)阶段 2:核心原理(1周)阶段 3:可控生成(1-2周)阶段 4:代码化与工程化(1-2周)阶段 5:训练与定制(2周)阶段 6:产品化 MVP(1-2周)你是 Agent 工程师的特别建议最短闭环(你现在就可以做) 非常好,这个问题问得对。 你
阅读全文
posted @ 2026-03-29 17:46 向着朝阳
阅读(17)
评论(0)
推荐(0)
Difussion 家族
摘要: 目录一、模型层(真正“生成图片”的核心)1.1 开源模型(可私有化部署)1.1.1 Stable Diffusion 系列(SD1.5 / SDXL / SD3.x)1.1.2 FLUX.1(BFL)1.1.3 其他开源主流(补充)1.2 闭源模型(API/平台服务)1.2.1 Midjourney
阅读全文
posted @ 2026-03-29 14:52 向着朝阳
阅读(7)
评论(0)
推荐(0)
2026年3月27日
文生图学习步骤
摘要: 目录一、学习路线总览二、分阶段详细计划阶段 1:先跑通一张图目标你要学什么用什么技术方案 A:零代码体验(推荐先用这个)方案 B:代码方式硬件要求阶段产出阶段 2:学会控制风格(LoRA)目标你要学什么用什么技术下载 LoRA加载 LoRA实践任务阶段产出阶段 3:学会控制构图(ControlNet
阅读全文
posted @ 2026-03-27 08:46 向着朝阳
阅读(13)
评论(0)
推荐(0)
1
2
3
4
5
···
81
下一页
公告