大模型应用架构
背景和价值

应用层。
关注业务场景适配(用户交互、数据转换、结果渲染)。
一、应用层:业务交互与展示
- 技术栈:应用层通常使用Spring Boot等Web框架,通过
Controller接收前端请求(HTTP/RESTful)。 - 核心职责:
- 用户鉴权(如JWT Token验证)。
- 请求参数校验(如检查用户输入的合法性)。
- 业务逻辑适配(如将用户请求转换为模型服务层所需的格式)。
2. 示例代码(Spring Boot)
@RestController
@RequestMapping("/api/report")
public class ReportController {
@Autowired
private ModelServiceClient modelServiceClient;
@PostMapping("/generate")
public ResponseEntity<String> generateReport(@RequestBody ReportRequest request) {
// 1. 业务逻辑:校验用户权限和输入
if (!userService.hasPermission(request.getUserId(), "report_generate")) {
return ResponseEntity.status(403).body("无权限");
}
// 2. 调用模型服务层生成原始内容
String rawContent = modelServiceClient.callGenerate(
request.getPrompt(),
Map.of("template", "gov_doc")
);
// 3. 应用层后处理:按业务需求渲染结果
String formattedReport = ReportRenderer.render(rawContent);
return ResponseEntity.ok(formattedReport);
}
}
3. 需补充的职责
- 结果渲染:将模型返回的原始数据(如JSON)转换为前端所需的格式(HTML/PDF)。
- 业务状态管理:跟踪生成任务的状态(如“进行中/已完成”),通知用户进度。
模型服务层
二、模型服务层:模型能力调度与执行
1. 你的理解(部分正确)
- Agent核心代码:模型服务层确实包含类似Agent的逻辑模块(如任务编排、RAG检索),但不止于此。
- 核心职责:
- 模型调用路由:根据请求类型选择合适的大模型(如GPT-4或本地Llama3)。
- 上下文管理:通过类似
Agent的机制维护多轮对话状态。 - 工具集成:调用计算器、搜索引擎等外部工具辅助生成。
2. 示例代码(Python伪代码)
class ModelServiceAgent:
def __init__(self):
self.llm = OpenAI(model="gpt-4")
self.retriever = ElasticsearchRetriever(index="policy_docs")
def generate_answer(self, query: str, context: dict) -> str:
# 1. RAG检索增强
docs = self.retriever.search(query)
augmented_prompt = f"基于以下知识:{docs}\n\n问题:{query}"
# 2. 调用大模型生成
response = self.llm.generate(augmented_prompt)
# 3. 敏感词过滤(模型服务层后处理)
filtered_response = SensitiveFilter.check(response.text)
return filtered_response
3. 需补充的职责
- 权限控制:校验应用层传入的Token是否有权调用目标模型。
- 性能监控:统计模型调用的延迟、Token消耗等指标。
- 缓存管理:缓存高频请求结果(如Redis存储常见问答对)。
三、边界混淆点与修正建议
1. 误区:将Agent代码完全归属于模型服务层
- 修正:Agent中的业务逻辑(如按行业模板生成报告)应归属应用层,而Agent中的模型调度与增强逻辑(如RAG)属于模型服务层。
2. 误区:模型服务层仅处理生成逻辑
- 修正:模型服务层需实现企业级管控能力:
- 流量控制:限制单个用户/应用的QPS(每秒查询数)。
- 熔断降级:当模型超时时自动切换备用模型或返回缓存。
3. 正确的分层协作流程
sequenceDiagram
participant Frontend as 前端
participant AppLayer as 应用层(Spring Boot)
participant ModelLayer as 模型服务层(Agent/RAG)
participant LLM as 大模型
Frontend->>AppLayer: POST /generate-report {prompt: "政策解读"}
AppLayer->>ModelLayer: 调用生成API (携带Token、模板参数)
ModelLayer->>ModelLayer: 权限校验、RAG检索
ModelLayer->>LLM: 发送增强后的prompt
LLM-->>ModelLayer: 返回原始生成文本
ModelLayer-->>AppLayer: 返回过滤后的文本
AppLayer->>AppLayer: 按业务模板渲染为PDF
AppLayer-->>Frontend: 返回PDF下载链接
三、与模型服务层的分工
能力层与模型服务层(包含 MCP、任务编排等模块)的分工明确:
| 层级 | 职责 | 典型模块 |
|---|---|---|
| 模型服务层 | 提供模型调度、资源管理、协议控制等底层支持 | MCP、模型调用、RAG、工具调用 |
| 能力层 | 将模型服务层的技术能力转化为业务可直接调用的生成服务 | 文本生成、图像生成、混合生成 |
能力层
能力层的定位与核心职责
在企业级生成式AI系统中,能力层是 “业务需求与技术能力的翻译层”,负责将底层大模型的原始能力封装为标准化、可复用、场景化的生成服务,直接支撑上层业务应用。以下是其核心定位的详细解析:
一、核心定位
1. 生成能力的业务化封装
- 输入:接收业务场景的生成需求(如“生成一篇政务政策解读文档”)。
- 输出:返回符合业务规范的多模态内容(如结构化文本、图表、语音等)。
- 角色类比:
- 模型层:提供“原材料”(如NLP模型的文本、CV模型的图像特征)。
- 能力层:将原材料加工为“成品”(如符合公文格式的政策文档)。
- 应用层:将成品交付给最终用户(如政务工作人员)。
2. 多模态协同枢纽
- 整合文本、图像、音频等单模态生成能力,实现跨模态任务编排。
示例:
生成企业宣传视频 = 文本生成(脚本) → 语音合成(配音) → 图像生成(分镜) → 视频合成。
3. 生成质量守门员
- 通过模型评测模块(客观评测 + 主观评测)过滤低质量内容,确保输出合规性。
示例:- 政务公文需通过格式校验(如标题层级、公章位置)。
- 医疗报告需验证术语准确性(如“糖尿病”不可误写为“尿糖病”)。
二、关键职责
1. 标准化生成服务
- 接口统一:通过REST API或SDK提供标准化调用方式,屏蔽底层模型差异。
# 调用能力层生成政务公文(伪代码) from gov_ability import generate_policy_doc doc = generate_policy_doc(topic="环保政策", template="省级公文")
2. 场景适配优化
- 根据行业需求定制生成策略:
场景 优化方向 政务 符合《党政机关公文格式》标准,支持红头文件模板 医疗 医学术语校验、诊断逻辑合规性(如“先诊断后建议”流程) 工业 图表与数据关联性验证(如缺陷检测图片需匹配检测报告中的描述)
3. 多模态任务编排
- 跨模态能力组合与依赖管理:graph LR A[用户输入: 生成产品宣传视频] --> B(文本生成: 广告脚本) B --> C(语音合成: 配音) B --> D(图像生成: 场景图) C & D --> E(视频合成)
三、与上下层的关系
1. 向下依赖模型服务层
- 调用模型服务层的核心能力:
- 模型调度:通过模型服务层的路由模块选择合适的大模型(如政务专用NLP模型)。
- 工具集成:调用知识库检索(RAG)、计算器等工具增强生成结果。
2. 向上支撑应用层
- 提供即插即用的生成能力,例如:
应用场景 调用的能力层模块 企业智能客服 文本生成(自动回复) + 语音合成(电话语音) 工业质检报告生成 图像生成(缺陷标注图) + 文档生成(结构化报告)
四、能力层的核心价值
- 降低技术门槛:业务开发者无需理解大模型原理,通过API/SDK快速接入生成能力。
- 加速场景落地:政务、医疗、工业等场景复用同一套生成模块,减少重复开发。
- 统一质量管控:集中管理生成内容的合规性,避免各业务线重复建设审核逻辑。
总结
能力层是 “模型工业化”的关键环节,将实验室中的AI技术转化为企业可落地的生产力工具。其定位决定了生成式AI系统能否在业务场景中实现规模化、标准化、可控化的赋能。
模型服务包含的东西
问题回答
拒识消歧:
拒识 -- 拒绝一些敏感问题
消歧 -- 消除歧义,
问题改写:
问题模糊,改写问题让语义更清晰

浙公网安备 33010602011771号