会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
aibi1
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
82
下一页
2026年4月5日
企业级智能体生命周期管理平台架构
摘要: 目录1. 运行态解耦:用“容器化 (K8s)”屏蔽底层框架2. 通信协议标准化:定义“API 契约”3. 可观测性(监控/追踪)标准化:强推“探针与协议”4. 核心能力下沉:干掉框架的“私有资产”5. 提供“适配器模式 (Adapter)”的内部 SDK面试实战话术(如何对面试官讲):可观测架构设计
阅读全文
posted @ 2026-04-05 12:06 向着朝阳
阅读(13)
评论(0)
推荐(0)
2026年4月4日
智能客服SFT和DPO的运用场景
摘要: 目录问题 1:真实电商场景,大部分问答应该走 RAG,SFT 主要做意图分类?问题 2:SFT 和 DPO 的数据看起来没本质区别,到底有什么区别?总结 两个问题都非常有价值,直接回答: 问题 1:真实电商场景,大部分问答应该走 RAG,SFT 主要做意图分类? 你的判断基本正确,但更准确的说法是两
阅读全文
posted @ 2026-04-04 15:43 向着朝阳
阅读(8)
评论(0)
推荐(0)
2026年4月1日
强化学习DPO-数学基本概念
摘要: 目录1) 概率(模型输出 token 概率)你要记住2) log 概率(训练里常用)直觉3) 损失函数(loss 越小越好)一句话4) 梯度下降(参数怎么改)直觉比喻四个概念串成一条链 太好了,这 4 个概念是你后面学 DPO/RL 的地基。我用同一个小例子串起来讲,你会更容易记住。 假设用户问:
阅读全文
posted @ 2026-04-01 08:53 向着朝阳
阅读(4)
评论(0)
推荐(0)
2026年3月31日
智能客服强化学习
摘要: 目录结论为什么客服更不能直接上 RL客服里常见的奖励信号(给你参考)客服落地推荐(最实用)Phase 1(先上线)Phase 2(提升体验)Phase 3(追求转化或效率)结论先说为什么不会全靠 RL?未来主流架构(你可以这么理解)RL 在这里主要干什么? 是的,智能客服场景也基本是这个玩法,而且比
阅读全文
posted @ 2026-03-31 22:05 向着朝阳
阅读(3)
评论(0)
推荐(0)
强化学习学习路径
摘要: 目录先一句话如果你做 LLM/Agent 落地什么时候“只学 DPO”也够用?什么时候必须学更完整 RL? 不够。DPO 很重要,但不是“强化学习全貌”。 先一句话 DPO:更像“偏好学习/对齐”的高性价比方法,工程上很好用。 RL(广义):还包括策略梯度、PPO/GRPO、奖励建模、探索、信用分配
阅读全文
posted @ 2026-03-31 21:54 向着朝阳
阅读(6)
评论(0)
推荐(0)
强化学习训练PAPO方法
摘要: 目录为什么“分开归一化”这么关键?PAPO 训练怎么实现(通俗版)第 1 步:对同一个题目,生成一组回答第 2 步:给每个回答打“结果分”(ORM)第 3 步:给回答打“过程分”(PRM)第 4 步:关键改造——“分开归一化”4.1 结果优势 (A_out)伪代码这段代码的关键点(你记这3句就够)如
阅读全文
posted @ 2026-03-31 08:39 向着朝阳
阅读(4)
评论(0)
推荐(0)
2026年3月30日
WebUI -主要参数配置
摘要: 目录1) Sampling Steps(步数)2) CFG Scale(提示词遵循度)3) Sampler(采样器)+ Scheduler4) Seed(随机种子)5) Size(分辨率)6) Batch size / Batch count7) Hires.fix(高清修复)8) Denoisin
阅读全文
posted @ 2026-03-30 21:43 向着朝阳
阅读(17)
评论(0)
推荐(0)
Denoising strength(在 img2img / inpaint 很关键)
摘要: 目录一句话先记住它到底在做什么(原理直觉)在不同模式下怎么理解1) img2img(整图改造)2) inpaint(局部重绘)最实用的区间建议(直接抄)和 Steps 的关系(你也会遇到)常见误区给你一个可执行的小实验(最快理解) 非常好的问题。这个参数确实是 img2img / inpaint 里
阅读全文
posted @ 2026-03-30 21:41 向着朝阳
阅读(16)
评论(0)
推荐(0)
WebUI 提示词如何编写
摘要: 目录1) 基本结构(最实用)2) 一个可直接用的模板正向模板负向模板3) 示例(写实人像)正向负向4) 示例(二次元)正向负向5) 提示词实战规则(重点)6) 常见问题 好问题。A1111(或同类 WebUI)里提示词写法可以用一个固定模板,先稳,再慢慢玩花样。 1) 基本结构(最实用) 正向 Pr
阅读全文
posted @ 2026-03-30 21:30 向着朝阳
阅读(8)
评论(0)
推荐(0)
2026年3月29日
Diffusion学习路径
摘要: 目录学习路径(建议 6 阶段)阶段 1:先跑通(1周)阶段 2:核心原理(1周)阶段 3:可控生成(1-2周)阶段 4:代码化与工程化(1-2周)阶段 5:训练与定制(2周)阶段 6:产品化 MVP(1-2周)你是 Agent 工程师的特别建议最短闭环(你现在就可以做) 非常好,这个问题问得对。 你
阅读全文
posted @ 2026-03-29 17:46 向着朝阳
阅读(31)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
82
下一页
公告