LLM 概念
LLM推理的后处理
LLM推理的后处理是将模型“原始”且可能“粗糙”的输出,转化为安全合规(道德合法等)、格式化、结构化的结果。
flowchart TD
A[LLM生成原始文本] --> B[安全与质量过滤]
subgraph B [安全与质量过滤]
B1[内容安全过滤]
B2[事实性核查]
B3[逻辑一致性检查]
end
B --> C[文本清理与格式化]
subgraph C [文本清理与格式化]
C1[去除无关标记]
C2[修剪多余空格]
C3[统一标点与格式]
end
C --> D{输出类型判断}
D -- 结构化数据 --> E[结构化数据解析]
D -- 自然语言 --> F[自然语言优化]
subgraph E [结构化数据解析]
E1[JSON/XML/YAML解析与验证]
E2[函数调用参数提取]
E3[代码块提取与语法高亮]
end
subgraph F [自然语言优化]
F1[分段与缩进]
F2[语法与拼写校正<br>(可选)]
F3[风格调整]
end
E --> G[最终输出]
F --> G
基于人类反馈的强化学习RLHF
基于人类反馈的强化学习RLHF,是模型训练阶段的一个关键技术,用于从本质上提升模型的能力和对齐性。
flowchart LR
A[预训练<br>基础模型] --> B[有监督微调<br>SFT]
B --> C[RLHF训练<br>使用PPO算法]
C --> D[模型推理]
D --> E[后处理]
subgraph F [训练阶段]
A
B
C
end
subgraph G[推理/部署阶段]
D
E
end
C -- 产出最终<br>可用于推理的模型 --> D
| 特性 | LLM后处理 | 强化学习(如RLHF) |
|---|---|---|
| 阶段 | 推理/部署阶段 | 训练阶段 |
| 目标 | 修正和优化单次生成的结果 | 从本质上改进模型本身的生成能力 |
| 是否更新模型 | 否,只处理文本 | 是,会更新模型权重 |
| 操作对象 | 模型输出的文本字符串 | 模型的参数(权重) |

浙公网安备 33010602011771号