S0.Understand What An Agent Is. Agent到底是什么
区分 chatbot、workflow、agent、multi-agent
可以把它们理解成 AI 应用能力从弱到强、从“回答问题”到“自动协作干活” 的四个层级:
| 类型 | 核心特点 | 谁在控制流程 | 典型例子 |
|---|---|---|---|
| Chatbot | 对话问答,主要靠聊天 | 人控制 | 客服机器人、ChatGPT 问答 |
| Workflow | 固定流程自动化 | 程序控制 | 表单提交 → AI 分析 → 生成报告 → 发邮件 |
| Agent | 有目标,会自己规划步骤、调用工具、根据结果调整 | AI 控制一部分流程 | “帮我分析竞品网站并生成报价单” |
| Multi-Agent | 多个 Agent 分工协作 | 多个 AI 角色协同 | 产品经理 Agent + 程序员 Agent + 测试 Agent 一起开发功能 |
1. Chatbot:聊天机器人
Chatbot 的本质是:你问一句,它答一句。
它通常没有复杂的任务规划能力,也不会主动拆任务。它更像一个“会说话的接口”。
比如你问:
帮我解释一下 RAG 是什么?
它回答你 RAG 的概念。
再比如客服机器人:
用户:我的订单什么时候发货?
机器人:请提供订单号,我帮您查询。
特点
- 重点是 对话
- 主要能力是 理解问题 + 生成回答
- 通常不会自己制定复杂计划
- 工具调用能力可有可无
2. Workflow:工作流
Workflow 的本质是:固定步骤自动执行。
它不是“自由思考”,而是按照提前设计好的流程走。
比如你做一个心理测评小程序:
用户填写问卷
→ 后端统计分数
→ 调用大模型生成分析
→ 生成 PDF 报告
→ 用户付费解锁
→ 保存历史记录
这就是典型 workflow。
特点
- 流程提前写死
- 每一步相对确定
- 适合业务系统
- 稳定、可控、便于测试
举例
客户上传商品图
→ AI 去背景
→ AI 换颜色
→ 生成新图片
→ 保存到素材库
这个也是 workflow。
优点
靠谱。商业项目里,大多数真正能落地的 AI 应用,第一阶段其实都是 workflow,不是 agent。
缺点
灵活性差。用户需求一变,流程可能就得改。
3. Agent:智能体
Agent 的本质是:给它一个目标,它自己决定怎么完成。
它不只是回答问题,而是会:
理解目标
→ 制定计划
→ 调用工具
→ 观察结果
→ 修正计划
→ 输出结果
比如你说:
帮我调研这个网站,分析功能模块、技术难度和报价。
一个 Agent 可能会自己拆成:
1. 打开网站
2. 分析页面结构
3. 判断功能模块
4. 估算前后端工作量
5. 生成报价方案
如果它发现网站打不开,它可能会换方式,比如搜索快照、看截图、让你补充信息。
特点
- 有目标导向
- 会拆任务
- 会调用工具
- 会根据中间结果调整
- 不完全依赖固定流程
和 Workflow 的区别
关键差异在这里:
| 对比 | Workflow | Agent |
|---|---|---|
| 流程 | 预设固定 | 动态规划 |
| 灵活性 | 较低 | 较高 |
| 可控性 | 高 | 相对低 |
| 适合场景 | 标准业务流程 | 非标准复杂任务 |
| 风险 | 低 | 高,容易跑偏 |
一句话:
Workflow 是“按剧本演”,Agent 是“给目标自己想办法”。
4. Multi-Agent:多智能体
Multi-Agent 的本质是:多个 Agent 分工协作。
它不是一个 AI 单打独斗,而是多个角色一起完成任务。
比如开发一个微信小程序,可以设计成:
产品经理 Agent:拆需求、写 PRD
架构师 Agent:设计技术方案
前端 Agent:写页面
后端 Agent:写接口
测试 Agent:找 bug
项目经理 Agent:检查进度和交付物
它们之间可以互相交流、审查、补充。
特点
- 多个智能体
- 每个 Agent 有不同职责
- 可以协作、辩论、评审
- 适合复杂任务
例子
你说:
帮我做一个博物馆 AI 讲解小程序方案。
Multi-Agent 可以这样分工:
市场 Agent:分析用户和竞品
产品 Agent:设计功能
技术 Agent:设计架构
报价 Agent:估算成本
法务合规 Agent:检查版权和隐私风险
最后整合成完整方案。
缺点
听起来很牛,但别被概念忽悠。
Multi-Agent 最大的问题是:
- 成本高
- 调试难
- Agent 之间可能废话很多
- 容易互相“幻觉传染”
- 最后结果不一定比一个强 Agent 更好
很多项目喊 Multi-Agent,其实只是:
几个 prompt 串起来,包装成高大上的词。
最重要的区别
可以按 自主性 排序:
Chatbot < Workflow < Agent < Multi-Agent
也可以按 商业落地稳定性 排序:
Workflow > Chatbot > Agent > Multi-Agent
注意,这两个排序是反过来的。
越智能,越不一定稳定;越稳定,越不像真正的智能体。
用一个外卖例子理解
Chatbot
你问:
附近有什么好吃的?
它回答:
可以吃黄焖鸡、麻辣烫、汉堡。
Workflow
你点外卖:
选择商品 → 下单 → 支付 → 商家接单 → 骑手配送
这是固定流程。
Agent
你说:
我今晚想吃不太油、预算 30 元以内、20 分钟能送到的东西,帮我选。
Agent 会自己筛选:
看距离
看评分
看配送时间
看价格
看你的偏好
最后给你推荐
Multi-Agent
多个 Agent 一起帮你:
健康 Agent:判断热量
预算 Agent:控制价格
口味 Agent:匹配偏好
时间 Agent:看配送速度
最终决策 Agent:综合推荐
实际项目里怎么选?
普通客服、问答
用 Chatbot。
例如:
政策咨询
产品说明
售后答疑
知识库问答
小程序、SaaS、业务系统
优先用 Workflow。
例如:
AI 测评报告
AI 商品图处理
AI 文档总结
AI 自动客服工单
这类项目你接单时,不要一上来就跟客户吹 Agent。客户真正要的是稳定交付,不是“AI 听起来很智能”。
复杂任务助手
可以用 Agent。
例如:
自动写报价单
自动分析网站
自动整理客户需求
自动生成项目方案
自动查资料并输出报告
这类任务流程不固定,Agent 有价值。
大型复杂系统
才考虑 Multi-Agent。
例如:
自动软件开发平台
自动投研系统
复杂运维诊断系统
企业级 AI 协作平台
但前期 Demo 可以做,真正生产环境要慎重。
理解 agent 的基本循环:observe -> think -> act -> observe。
对,这句话就是 Agent 的核心运行机制:
observe → think → act → observe → ...
观察 → 思考 → 行动 → 再观察 → ...
它表示:Agent 不是一次性给答案,而是通过“看情况—做判断—采取动作—看反馈”不断循环,直到完成目标。
1. observe:观察
observe = 获取当前信息。
它要先知道:
用户想干什么?
现在有什么输入?
环境返回了什么?
工具执行结果是什么?
有没有报错?
任务完成到哪一步了?
比如你让 Agent:
帮我检查这段代码为什么报错。
它的 observe 可能是:
看到用户发来的代码
看到报错信息
看到运行环境
看到输入输出样例
一句话:
observe 就是“先看清楚局面”。
2. think:思考
think = 根据当前观察,决定下一步。
它会判断:
现在的问题是什么?
目标是什么?
缺什么信息?
应该调用什么工具?
下一步该执行什么动作?
比如它观察到:
报错是空指针异常
它可能思考:
可能是某个对象没有初始化
应该检查变量赋值和调用位置
一句话:
think 就是“分析局面,决定策略”。
3. act:行动
act = 执行具体动作。
行动可以是:
回复用户
调用搜索工具
运行代码
读取文件
查询数据库
调用 API
修改文件
生成报告
比如:
observe:看到代码报错
think:怀疑 nums 为空
act:加空值判断 / 运行测试 / 给出修改方案
一句话:
act 就是“真的动手干”。
4. 再 observe:看行动结果
行动之后,Agent 还要继续观察结果。
比如:
act:运行代码
observe:还是报错,但报错行变了
think:说明第一个问题修了,还有第二个问题
act:继续修改
这就是闭环。
如果没有这一步,那它就只是“拍脑袋回答”,不是完整 Agent。
举个非常直观的例子
你说:
帮我做一个微信小程序报价。
Agent 的循环可能是:
observe:
看到用户需求:登录、支付、后台、AI 报告。
think:
判断这是一个中等复杂项目,需要拆模块。
act:
列出功能模块和报价区间。
observe:
用户补充:只做演示,不上线,不接支付。
think:
需求大幅变简单,报价应该降低。
act:
重新给出 Demo 版方案和报价。
你看,它不是固定死的,而是会根据新信息调整。
和 Workflow 的区别
Workflow 是固定流程
A → B → C → D
比如:
上传图片 → 去背景 → 换背景 → 返回图片
流程提前写死,每次都这么走。
Agent 是动态循环
observe → think → act → observe
比如:
如果图片清晰:直接处理
如果图片模糊:先增强
如果识别失败:让用户重新上传
如果 API 报错:换备用方案
所以区别是:
**Workflow 是按剧本演;Agent 是边看情况边做决定。
明白什么时候不该用 agent
什么时候不该用 Agent?**
1. 任务路径很固定
比如:
用户上传图片
→ 校验格式
→ 调用去背景接口
→ 保存图片
→ 返回结果
这种就适合 workflow,不适合 Agent。
因为每一步都很明确,没必要让 AI 自己“思考下一步”。
2. 规则很清楚
比如:
满 100 减 20
会员 9 折
超过 30 天不可退款
库存小于 10 自动提醒
这种应该用普通代码、规则引擎、定时任务。
不要让 Agent 去判断:
“这个用户是否应该打折?”
它可能今天说 9 折,明天说 8.5 折,后天开始讲商业伦理。很聪明,但不适合结账系统。
3. 对稳定性要求很高
比如:
支付
下单
退款
库存扣减
权限校验
财务结算
医疗诊断
法律合同执行
这些场景不能让 Agent 自由发挥。
Agent 可以做辅助分析,但最终动作必须被严格流程控制。
比如支付场景中:
错误做法:
Agent 判断是否扣款
正确做法:
后端规则判断是否扣款
Agent 最多解释扣款原因
4. 普通脚本就能解决
比如:
批量重命名文件
定时发送提醒
Excel 数据清洗
接口数据同步
日志格式转换
图片压缩
这些用脚本更便宜、更快、更稳。
硬上 Agent 就像:
明明拧个螺丝,非要请一个项目经理开会讨论螺丝的存在意义。
有点高级,但很离谱。
Agent 反而会带来什么问题?
1. 不确定性
同一个任务,Agent 可能每次规划不一样。
这在创意任务里是优点,在业务系统里可能是灾难。
2. 成本更高
Agent 往往要多轮调用模型:
观察一次
思考一次
调用工具一次
再观察一次
再思考一次
Token 成本、接口成本、时间成本都会上升。
3. 调试困难
Workflow 出问题,你能定位:
第 3 步接口返回异常
Agent 出问题,经常变成:
它为什么这么想?
它为什么调用这个工具?
它为什么没停?
这就很麻烦。
4. 权限风险
Agent 如果能调用工具,就必须限制权限。
比如它可以:
发邮件
删文件
改数据库
付款
发布内容
那就必须加确认机制。
否则它不是 Agent,是“带 API 权限的熊孩子”。
浙公网安备 33010602011771号