LLM 概念

LLM推理的后处理

LLM推理的后处理是将模型“原始”且可能“粗糙”的输出，转化为安全合规（道德合法等）、格式化、结构化的结果。

flowchart TD A[LLM生成原始文本] --> B[安全与质量过滤] subgraph B [安全与质量过滤] B1[内容安全过滤] B2[事实性核查] B3[逻辑一致性检查] end B --> C[文本清理与格式化] subgraph C [文本清理与格式化] C1[去除无关标记] C2[修剪多余空格] C3[统一标点与格式] end C --> D{输出类型判断} D -- 结构化数据 --> E[结构化数据解析] D -- 自然语言 --> F[自然语言优化] subgraph E [结构化数据解析] E1[JSON/XML/YAML解析与验证] E2[函数调用参数提取] E3[代码块提取与语法高亮] end subgraph F [自然语言优化] F1[分段与缩进] F2[语法与拼写校正 （可选）] F3[风格调整] end E --> G[最终输出] F --> G

基于人类反馈的强化学习RLHF

基于人类反馈的强化学习RLHF，是模型训练阶段的一个关键技术，用于从本质上提升模型的能力和对齐性。

flowchart LR A[预训练 基础模型] --> B[有监督微调 SFT] B --> C[RLHF训练 使用PPO算法] C --> D[模型推理] D --> E[后处理] subgraph F [训练阶段] A B C end subgraph G[推理/部署阶段] D E end C -- 产出最终 可用于推理的模型 --> D

特性	LLM后处理	强化学习（如RLHF）
阶段	推理/部署阶段	训练阶段
目标	修正和优化单次生成的结果	从本质上改进模型本身的生成能力
是否更新模型	否，只处理文本	是，会更新模型权重
操作对象	模型输出的文本字符串	模型的参数（权重）

posted @ 2025-11-26 09:51 qccz123456 阅读(18) 评论(0) 收藏举报

刷新页面返回顶部