AI是如何学会边想边做的：从ReAct框架到智能体的进化

Posted on 2025-10-16 02:32 吾以观复阅读(18) 评论(0) 收藏举报

关联知识库：AI是如何学会边想边做的：从ReAct框架到智能体的进化

AI是如何学会"边想边做"的：从ReAct框架到智能体的进化

核心观点：如果你还在教AI怎么"思考-行动-观察"，那说明你用的AI还停留在上一代。新一代AI已经把这套本领练成了本能。

开场：一个简单的问题

假设你问AI："苹果公司昨天的收盘价是多少？"

老一代AI会这样：

"呃...我的训练数据里没有实时股价信息，我无法回答。"

新一代AI（有Agent能力）会这样：

思考："需要查询实时股价数据"
行动：调用金融API查询AAPL股票
观察：收到结果"175.04美元"
回答："苹果公司昨天的收盘价是175.04美元"

这之间的差别，就是今天要聊的故事。

第一章：ReAct框架——教AI学会"边想边做"

什么是ReAct？

ReAct = Reasoning（推理）+ Acting（行动）

2023年，研究人员发现：如果给AI设计一套"思考-行动-观察"的循环流程，它就能像人一样解决复杂问题。

ReAct的工作循环

想象你要找一家餐厅：

【人类的思维过程】
 思考："我想吃川菜，得先搜索一下附近有什么餐厅"
 行动：打开地图搜索"川菜"
 观察："看到三家川菜馆，'蜀香阁'评分最高"
 再思考："看看营业时间和订座情况"
 行动：打电话询问
 观察："今晚8点有位置"
✅ 决定："就去这家！"

ReAct框架就是把这个人类思维过程"教"给AI：

【AI的ReAct流程】
Thought（思考） → Action（行动） → Observation（观察） → 
Thought（再思考） → Action（再行动） → ... → Answer（最终答案）

一个真实的例子

问题："特斯拉Model 3在中国的最新售价比美国贵多少？"

传统AI：❌ "抱歉，我无法获取实时价格信息"

ReAct框架下的AI：

 Thought: "需要分别查询中美两地的Model 3售价"
 Action: 搜索"Tesla Model 3 price China 2025"
 Observation: "中国售价：人民币229,900元起"

 Thought: "已知中国价格，现在查美国价格"
 Action: 搜索"Tesla Model 3 price USA 2025"  
 Observation: "美国售价：38,990美元起"

 Thought: "需要汇率换算，查一下当前美元兑人民币汇率"
 Action: 查询汇率API
 Observation: "当前汇率：1美元 = 7.25人民币"

 Thought: "可以计算了：38,990×7.25 = 282,678元"
 Answer: "中国售价约229,900元，美国售价约282,678元人民币，
          中国反而便宜约52,778元（约13,000美元）"

看到了吗？AI不再是"一问一答"，而是会主动分解任务、调用工具、收集信息，就像一个真正会做研究的助手。

第二章：从"手动挡"到"自动挡"——AI的进化

早期：需要"手把手教"

2023年使用ReAct框架时，我们需要在提示词里明确写：

你需要遵循以下步骤：
1. 先思考（Thought）下一步该做什么
2. 决定行动（Action）并说明要用什么工具
3. 等待观察（Observation）工具返回的结果
4. 重复上述步骤直到能给出最终答案

就像教一个新手司机开手动挡车，油门、离合、换挡都要教。

现在：AI自己就会了

2025年的先进AI模型（如Claude 3.5 Sonnet、GPT-4等）：

✅ 不需要提示词教它ReAct
✅ 自己知道什么时候该查资料
✅ 自己决定调用什么工具
✅ 自己判断信息够不够，要不要继续查

这就像老司机开自动挡车，AI把ReAct这套本领内化成了自己的能力。

对比表：从提示词到能力

维度	2023：需要ReAct提示词	2025：内置Agent能力
工作方式	人类用提示词引导每一步	AI自主规划和执行
工具调用	需要明确说明"请使用XX工具"	AI自己判断该用什么工具
多步推理	需要在提示词里设计流程	AI自动循环直到解决问题
适用场景	固定流程的任务	开放式复杂问题
开发成本	高（需要精心设计提示词）	低（只需提供工具列表）

第三章：什么是真正的"Agent能力"？

会用工具 ≠ 智能体

很多人误解：只要AI能调用工具，就算有Agent能力了。

其实不是！ 真正的Agent需要三大核心能力：

1️⃣ 自主规划能力

❌ 工具调用：人类说"查天气"，AI查天气
✅ Agent：人类说"明天适合去爬山吗"，AI自己决定查天气、查景区开放时间、查交通路况

2️⃣ 循环决策能力

❌ 工具调用：调用一次工具，返回结果，结束
✅ Agent：调用工具→分析结果→判断是否需要更多信息→继续调用→直到问题解决

3️⃣ 目标导向能力

❌ 工具调用：执行指令
✅ Agent：理解最终目标，自己规划达成路径

举个例子：调试代码

问题："这段Python代码运行报错，帮我修复"

普通工具调用模型：

AI: "你的代码第15行有语法错误，应该改成..."
人类: "改了还是报错"
AI: "可能是缩进问题..."
人类: "还不对"
AI: "..."

需要人类不断反馈，AI被动响应。

Agent模型：

 Thought: "先分析错误信息"
 Action: 读取完整错误堆栈
 Observation: "ImportError: No module named 'requests'"

 Thought: "缺少依赖，检查虚拟环境"
 Action: 检查requirements.txt和当前环境
 Observation: "requirements.txt中有requests，但虚拟环境未安装"

 Thought: "需要安装依赖"
 Action: 运行 pip install -r requirements.txt
 Observation: "安装成功"

 Thought: "再次运行代码验证"
 Action: 执行python script.py
 Observation: "运行成功，无报错"

 Answer: "问题已解决！原因是虚拟环境中缺少requests库，
          我已安装依赖并验证代码可以正常运行。"

Agent自主完成了整个调试流程，不需要人类每一步都介入。

第四章：ReAct现在还有用吗？

答案：看情况

✅ 什么时候还需要ReAct提示词？

1. 固定流程的任务

如果你非常清楚解决某类问题的最佳步骤，用ReAct风格的提示词反而更高效：

【数据分析固定流程】
1. 先用SQL查询原始数据
2. 用Python清洗数据
3. 用统计方法分析
4. 生成可视化图表
5. 输出结论报告

这种情况下，明确的步骤引导比让AI自由探索更快更准。

2. 使用老模型

如果用的是不具备Agent能力的模型（如早期的GPT-3.5），ReAct提示词仍然是提升性能的有效方法。

❌ 什么时候不需要了？

开放式问题 + 先进模型 = 让AI自由发挥

例如："帮我策划一场技术分享会"

这种没有固定套路的任务，新一代Agent模型会比人类设计的流程更灵活：

自己去查最新的技术热点
自己评估受众兴趣
自己设计议程和互动环节
根据反馈动态调整方案

第五章：给普通人的启示

1️⃣ AI正在从"工具"变成"助手"

过去：AI是一把锤子，你得告诉它"敲这里"
现在：AI是个助理，你只需说"帮我把这幅画挂墙上"

2️⃣ 未来的AI使用技巧

❌ 不要：详细列出每一步操作
✅ 应该：清楚说明你的目标和约束条件

低效的提问：

"帮我：
1. 搜索北京明天天气
2. 如果下雨就推荐室内活动
3. 如果晴天就推荐户外景点
4. 给出交通路线"

高效的提问：

"明天想在北京玩一天，预算500元，
喜欢人文景点，不喜欢太商业化的地方，
帮我规划一下行程"

Agent会自动：

查天气决定室内/户外
根据预算筛选活动
依据偏好推荐景点
规划最优路线

3️⃣ 理解AI的局限

Agent能力虽强，但不是万能的：

AI擅长	AI不擅长
✅ 信息收集和整合	❌ 主观判断（如"这个设计好看吗"）
✅ 逻辑推理和规划	❌ 需要真实体验的建议
✅ 重复性分析任务	❌ 创造性突破（需要人类引导）
✅ 多维度对比评估	❌ 伦理和价值观决策

总结：从ReAct到Agent的三个关键认知

认知1：ReAct是方法，Agent是能力

ReAct：一套让AI"边想边做"的工作流程（2023年的创新）
Agent：把这套流程内化，变成AI的本能（2025年的进化）

认知2：不是所有"会用工具"的AI都是Agent

真正的Agent = 自主规划 + 循环决策 + 目标导向

认知3：未来趋势是"少说怎么做，多说要什么"

过去：教AI步骤（How）→ 需要ReAct提示词
现在：告诉AI目标（What）→ Agent自己规划
未来：AI理解意图（Why）→ 主动提出更好的方案

写在最后

当AI学会了"边想边做"，它就从被动的问答工具进化成了主动的问题解决者。

ReAct框架的伟大之处不在于它是一套永恒的提示词模板，而在于它揭示了智能体工作的本质：

真正的智能，不是知道所有答案，而是知道如何找到答案。

现在，这个能力已经写进了AI的"基因"里。

下次当你使用那些会自己搜索资料、会调用工具、会多步规划的AI助手时，不妨想想：

它正在脑海里进行"Thought → Action → Observation"的循环
只不过这一切都在后台自动发生
你只需要坐等结果

这就是AI从"手动挡"进化到"自动挡"的魅力所在。

扩展阅读

ReAct框架原始论文（2023）
Anthropic Claude的工具使用指南
OpenAI Function Calling文档
宝玉原文：ReAct框架与AI Agent：当AI学会自己思考和行动

创作日期：2025年10月15日
文章定位：AI技术科普 | 面向普通读者
参考资料：宝玉《ReAct框架与AI Agent：当AI学会自己思考和行动》

刷新页面返回顶部