理解模型输出配置

这张图展示了大语言模型（LLM）聊天交互的流程架构，可从以下模块逐一解析：

1. Prompt（输入模块）

包含两部分：
- Chat Options（运行时选项）：标注为<<Runtime>>，是每次请求时传递的参数，若与启动选项冲突则覆盖启动选项。
- Instructions（指令）：可以是文本、音频、图像 / 视频（针对计算机视觉模型）等形式，作用是将输入转换为模型特定的原生输入格式。

这是聊天模型的核心层，包含两个关键部分：

启动时 Chat 选项：标注为<<Start-Up>>，是模型初始化时设置的选项（不同模型可选择性实现）。
三个处理节点：
- Convert Input：将 Prompt 中的指令转换为模型可理解的原生输入格式。
- Merge Options：合并 “运行时 Chat 选项” 和 “启动时 Chat 选项”，遵循 “运行时选项覆盖启动选项” 的规则。
- Convert Output：将模型输出转换为统一的ChatResponse格式。

这一层是模型的底层交互，包含：

是统一的输出格式，包含：

Generations：生成结果的集合，包含：
- Output：模型生成的最终内容（如文本回答）。
- Metadata（元数据）：包含模型输出的额外信息（如生成时长、tokens 统计等），此处有两个元数据模块，可能表示多维度的元信息。

这张图清晰地梳理了从用户输入到模型输出的全流程，以及 “选项合并”“格式转换” 等关键环节的设计逻辑。

posted @ 2025-11-18 16:56 LackyQueen 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部