大模型调优 - 随笔分类 - 向着朝阳

智能客服SFT和DPO的运用场景

摘要：目录问题 1：真实电商场景，大部分问答应该走 RAG，SFT 主要做意图分类？问题 2：SFT 和 DPO 的数据看起来没本质区别，到底有什么区别？总结两个问题都非常有价值，直接回答：问题 1：真实电商场景，大部分问答应该走 RAG，SFT 主要做意图分类？你的判断基本正确，但更准确的说法是两阅读全文

posted @ 2026-04-04 15:43 向着朝阳阅读(5) 评论(0) 推荐(0)

强化学习DPO-数学基本概念

摘要：目录1) 概率（模型输出 token 概率）你要记住2) log 概率（训练里常用）直觉3) 损失函数（loss 越小越好）一句话4) 梯度下降（参数怎么改）直觉比喻四个概念串成一条链太好了，这 4 个概念是你后面学 DPO/RL 的地基。我用同一个小例子串起来讲，你会更容易记住。假设用户问：阅读全文

posted @ 2026-04-01 08:53 向着朝阳阅读(2) 评论(0) 推荐(0)

智能客服强化学习

摘要：目录结论为什么客服更不能直接上 RL客服里常见的奖励信号（给你参考）客服落地推荐（最实用）Phase 1（先上线）Phase 2（提升体验）Phase 3（追求转化或效率）结论先说为什么不会全靠 RL？未来主流架构（你可以这么理解）RL 在这里主要干什么？是的，智能客服场景也基本是这个玩法，而且比阅读全文

posted @ 2026-03-31 22:05 向着朝阳阅读(2) 评论(0) 推荐(0)

强化学习学习路径

摘要：目录先一句话如果你做 LLM/Agent 落地什么时候“只学 DPO”也够用？什么时候必须学更完整 RL？不够。DPO 很重要，但不是“强化学习全貌”。先一句话 DPO：更像“偏好学习/对齐”的高性价比方法，工程上很好用。 RL（广义）：还包括策略梯度、PPO/GRPO、奖励建模、探索、信用分配阅读全文

posted @ 2026-03-31 21:54 向着朝阳阅读(5) 评论(0) 推荐(0)

强化学习训练PAPO方法

摘要：目录为什么“分开归一化”这么关键？PAPO 训练怎么实现（通俗版）第 1 步：对同一个题目，生成一组回答第 2 步：给每个回答打“结果分”（ORM）第 3 步：给回答打“过程分”（PRM）第 4 步：关键改造——“分开归一化”4.1 结果优势 (A_out)伪代码这段代码的关键点（你记这3句就够）如阅读全文

posted @ 2026-03-31 08:39 向着朝阳阅读(3) 评论(0) 推荐(0)

强化学习概念

摘要：目录总结一、什么是强化学习？二、强化学习是大模型训练的“终极杀器”吗？1. 为什么它看起来像“终极杀器”？（它的功劳）2. 为什么它不能算作“绝对的终极杀器”？（它的局限）强化学习使用场景1. 电商与内容推荐（如淘宝、抖音）—— 你的例子完全正确2. 自动驾驶（如特斯拉 FSD）—— 你的例子非阅读全文

posted @ 2026-03-16 21:36 向着朝阳阅读(22) 评论(0) 推荐(0)

RL的几种层次

摘要：目录一、经典强化学习（Policy Gradient / PPO 等）二、大模型领域的 RL（例如 RLHF）三、AgentScope 这种“工作流强化学习”四、结构层级对比五、关键理解六、结合你当前语境（AgentScope）七、用一句话总结这个问题必须分情况回答。强化学习“会不会修改模型权重阅读全文

posted @ 2026-02-24 21:43 向着朝阳阅读(20) 评论(0) 推荐(0)

强化学习

摘要：目录使用场景对比1️⃣ 结构化任务（推荐 LoRA）2️⃣ 行为对齐（推荐 RL）一、核心本质区别二、LoRA 是什么？三、强化学习是什么？四、训练信号的本质区别LoRA（SFT）RL五、更新粒度差异七、能不能一起用？八、你在做 agent 项目时怎么选？九、一句话总结参考资料 RL - Reinf 阅读全文

posted @ 2026-02-21 21:21 向着朝阳阅读(19) 评论(0) 推荐(0)

Lora微调关键指标和实战

摘要：目录一、标准 LLM 指令微调（SFT 场景）不推荐作为核心指标①train/loss如何区分“lr 太小”和“容量太小”？②.eval/loss一、正常的 eval/loss 特征二、异常的 eval/loss 特征1️⃣ eval/loss 快速上升2️⃣ eval/loss 波动剧烈3️⃣ e 阅读全文

posted @ 2026-02-08 20:24 向着朝阳阅读(40) 评论(0) 推荐(0)

Lora 微调流程

摘要：目录一、整体流程总览（先看全图）二、Step 0：数据 & 任务确认（非常关键，很多人跳过）三、Step 1：结构设计（一次性，别纠结）🎯 目标推荐起点（90% 场景适用）四、Step 2：基线训练配置（全部冻结）五、Step 3：学习率搜索（第一调参旋钮）🎯 目标操作方式📊 判断指标（核心）阅读全文

posted @ 2026-02-06 11:08 向着朝阳阅读(62) 评论(0) 推荐(0)

智能客服微调数据准备

摘要：目录原则智能客服（带销售能力）LoRA 微调数据准备总结Step 0：明确训练目标Step 1：核心数据准备1️⃣ 意图分类2️⃣ Phase 识别3️⃣ Action 识别4️⃣ 实体抽取Step 2：数据量估算（单场景）Step 3：数据策略和原则Step 4：总结原则复用现有意图分类样本阅读全文

posted @ 2026-01-26 12:51 向着朝阳阅读(20) 评论(0) 推荐(1)

Lora微调流程（2）

摘要：目录总结LoRA 微调标准流程（工程版 · 分类任务）一、准备阶段：任务 & 数据评估1. 评估任务复杂度（决定“是否需要 LoRA”）2. 评估数据（决定“LoRA 容量上限”）二、结构与容量设定（先定“能不能学到”）1. 初始 LoRA 配置（保守起点）2. 小规模试跑（结构验证）3. 判断容量阅读全文

posted @ 2026-01-26 10:28 向着朝阳阅读(10) 评论(0) 推荐(1)

LoRA 微调参数调优流程

摘要：目录一、准备阶段：评估任务 & 数据二、训练观察阶段：小规模试验三、超参调优阶段四、迭代优化策略五、生产级经验总结【总结】 train loss 快速降到接近 0，但 val loss 高 → rank 太大 → 过拟合 train loss 降不下去 → rank 太小或模块少 → 欠拟合 ra 阅读全文

posted @ 2026-01-25 21:50 向着朝阳阅读(146) 评论(0) 推荐(1)

F1和准确率

摘要：目录准确度和召回率1️⃣ 准确率（Accuracy）2️⃣ 多标签任务为什么用 F1-score多标签任务特点F1-score3️⃣ Macro-F1 / Micro-F14️⃣ 验证指标示例F1合理范围F1中准确率的计算一、先给一句“人话版”定义二、把公式逐项翻译成“业务语言”1️⃣ TP（Tru 阅读全文

posted @ 2026-01-25 21:02 向着朝阳阅读(30) 评论(0) 推荐(0)

LoRA微调target module设置

摘要：目录原则1️⃣ 注意力 Q/K/V2️⃣ FFN（前馈层）target modules 最佳组合Q/V + 顶层 2~4 层 FFN 配置一、先给你一个“能直接用”的结论版本（以 Qwen / LLaMA 系结构为例）1️⃣ Q / V 的 target modules（必选）2️⃣ 顶层 2~4 阅读全文

posted @ 2026-01-25 17:53 向着朝阳阅读(141) 评论(0) 推荐(0)

LoRA target module 可选参数

摘要：目录一、LoRA 可调目标模块（Target Modules）概览1️⃣ 多头自注意力层（MHA）2️⃣ FFN（前馈网络）3️⃣ Embedding 层4️⃣ 特殊模块（可选）二、选择原则总结三、面试级表述示例明白，你想系统梳理 LoRA 微调时 target modules 可选的参数/矩阵，阅读全文

posted @ 2026-01-25 17:42 向着朝阳阅读(51) 评论(0) 推荐(0)

国产GPU和英伟达部署和推理加速区别

摘要：目录1️⃣ 为什么必须学习不同厂商的技术？2️⃣ 学习成本 & 实际策略学习成本实际策略3️⃣ 面试 / 技术表述模板是的，如果你要在国产算力上部署 LLM 推理，几乎不可避免地需要掌握不同厂商的技术栈，原因和逻辑如下： 1️⃣ 为什么必须学习不同厂商的技术？国产 GPU / NPU 各家的硬件阅读全文

posted @ 2026-01-24 10:11 向着朝阳阅读(23) 评论(0) 推荐(0)

LoRA微调-挑战（3）-过拟合

摘要：目录解释：结论过拟合的几张原因的解决办法历史话术上表现很好但是新产品新话术预测明显下降验证集必须是时间切分一、问题本质：随机切分 vs 时间切分1️⃣ 随机切分的做法2️⃣ 时间切分的做法二、为什么时间切分更能发现过拟合三、具体操作方法过拟合的解决过拟合不是“没学好”，而是“学得太具体，泛化不好” 阅读全文

posted @ 2026-01-24 08:54 向着朝阳阅读(77) 评论(0) 推荐(0)

LoRA微调数据准备

摘要：目录适度引入包含错别字和口语表达的样本，作为噪声增强手段一、LoRA 微调数据集准备流程（工程版）Step 0：明确训练目标（非常关键）是否需要上下文。是否引入通用对话❌ 不需要通用对话的典型情况（也是推荐状态）三、什么时候【才需要】少量通用对话？✅ 场景 A：防止 LoRA 过拟合“只认业务词”✅ 阅读全文

posted @ 2026-01-24 08:51 向着朝阳阅读(38) 评论(0) 推荐(0)

Lora微调- Rank 参数设置

摘要：目录一、LoRA rank 的含义二、rank 太低 → 学不到细节三、rank 太高 → 容易记住训练集（过拟合）四、从训练指标判断 rank 是否合适五、可用面试回答模板rank太低一、先给一句总判断（面试可用）二、rank 太低时，验证集常见的 5 类问题1️⃣ 验证集准确率整体偏低（但 tr 阅读全文

posted @ 2026-01-23 22:23 向着朝阳阅读(76) 评论(0) 推荐(0)

aibi1

随笔分类 - 大模型调优

公告