LLM 概念

LLM推理的后处理

LLM推理的后处理是将模型“原始”且可能“粗糙”的输出,转化为安全合规(道德合法等)、格式化、结构化的结果。

flowchart TD A[LLM生成原始文本] --> B[安全与质量过滤] subgraph B [安全与质量过滤] B1[内容安全过滤] B2[事实性核查] B3[逻辑一致性检查] end B --> C[文本清理与格式化] subgraph C [文本清理与格式化] C1[去除无关标记] C2[修剪多余空格] C3[统一标点与格式] end C --> D{输出类型判断} D -- 结构化数据 --> E[结构化数据解析] D -- 自然语言 --> F[自然语言优化] subgraph E [结构化数据解析] E1[JSON/XML/YAML解析与验证] E2[函数调用参数提取] E3[代码块提取与语法高亮] end subgraph F [自然语言优化] F1[分段与缩进] F2[语法与拼写校正<br>(可选)] F3[风格调整] end E --> G[最终输出] F --> G

基于人类反馈的强化学习RLHF

基于人类反馈的强化学习RLHF,是模型训练阶段的一个关键技术,用于从本质上提升模型的能力和对齐性。

flowchart LR A[预训练<br>基础模型] --> B[有监督微调<br>SFT] B --> C[RLHF训练<br>使用PPO算法] C --> D[模型推理] D --> E[后处理] subgraph F [训练阶段] A B C end subgraph G[推理/部署阶段] D E end C -- 产出最终<br>可用于推理的模型 --> D
特性 LLM后处理 强化学习(如RLHF)
阶段 推理/部署阶段 训练阶段
目标 修正和优化单次生成的结果 从本质上改进模型本身的生成能力
是否更新模型 否,只处理文本 是,会更新模型权重
操作对象 模型输出的文本字符串 模型的参数(权重)
posted @ 2025-11-26 09:51  qccz123456  阅读(18)  评论(0)    收藏  举报