sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI
sciTech-BigDataAIML:
Abbreviation(英文缩写词):
- CV( Computer Vision ) = 计算机视觉, 是 AI (人工智能) 领域的一个重要分支,
研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。 - ASR( Automatic Speech Recognition ) = 自动语音识别,使机器听懂人说话,转成文本。
- OCR( Optical Character Recognition ) = 光学字符识别,使机器从图片中读出文字,看懂文字,
本质是CV(计算机视觉)的细分任务。
AI 发展"四阶段“: "看懂世界”到“改造世界”
序言
过去几年,人工智能一路飞升,从识图识声,到能写能画,再到能干活做决策,
甚至走上现实生活的“物理战场”。你是否也曾寻思,AI到底发展到哪个阶段了?
又有哪些能力正在悄悄进化?
Nvidia创始人 Jensen Huang(黄仁勋) 在 GTC 2025 提出AI 发展四个阶段。
每一阶段,都是一次技术跃迁。看完本文,你将秒懂它们的本质区别与商业机会。
今天,我们就来具体聊聊 AI 发展的 四个阶段:
Perception AI → Generative AI → Agentic AI → Physical AI
一:Perception AI: AI 看得见、听得懂、读得清
这是 AI 的“眼睛”和“耳朵”,它让机器第一次具备“理解世界”的能力。
-
代表能力:
- CV (图像识别):人脸识别、目标检测、安防监控
- ASR (语音识别):语音助手、电话客服
- OCR (文本识别):发票识别、合同解析
- Other: 情感分析、实体识别、关键词抽取 等
-
商业价值:
- 金融风控:票据识别、影像审核
- 医疗影像:病灶检测、报告辅助
- 智能硬件:智能安防摄像头、车载感知系统
-
Pros. & Cons.:
- Pros.: 聚焦感知能力, AI能 看(CV: 图像识别)、听(ASR: 语音识别)、读(OCR: 等基本任务) 的"感知",是AI起点。
- Cons.: 这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。
二:Generative AI:
使 AI 能“表达”“创作”,第一次能 创意和内容输出能力.
这一时期的主角,你一定熟:ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成) …
- 用Generative AI的能力,帮助作者创作 本文这样的科普文章
- 先提出要求给它,帮我生成初稿,
- 后反复校对修改,确保符合自己最初的意图,
- 对比以前的从零开始模式,效率上要提升很多。
- 代表能力:
Text: 生成文本:聊天、文章、摘要、代码
Graphic: 生成图像:海报设计、产品图、插画
Audio: 生成音频/音乐:AI歌手、播报配音
Fusion: 多模态融合:文字转视频、图像转语音 - 商业价值:
- Content Creation(内容创作):AI 写作、AI 配图、AI 视频
- Marketing Automation(营销自动化):文案生成、广告素材组合
- Programming Assistant(编程助手):GitHub Copilot、APEX AI Assistant
这一阶段的 AI 就像“有创造力的 Secretary(秘书)”,大大提高内容产业的效率。
三:Agentic AI(智能体AI)
真正能“接受并完成任务”的 AI 时代来了:
这阶段的 AI : 不只是工具,而是真正“可交付任务的虚拟员工”。
这一阶段就有些强大,如果 ChatGPT 比喻 “聪明的对话机”,
那么 Agentic AI 就是 你可以"交付任务"的"数字智能机器人"。
- 每个智能体都可以有 "机器智能"的"自主决策" 去"完成实际的任务",不需要 "人工干预" 就能 得到比较好的结果。
- Agentic AI Service 的 当前 "服务期等待时间" 肯定要比直接的 Generative AI (生成式AI) 要久.
因为 "Agentic AI智能体" 通常要涉及"多次的服务调用","多次的LLM模型交互", 等;
但是,很多场景下这都不是问题,人们通常可接受 "多花一些时间" 得到 "更靠谱更符合预期的结果" 。
- Agentic AI: 不仅能 "理解" 人的"需求",还能 "想办法" 去 "完成任务",比如:
- 自动拆解步骤( 先查资料 → 再写报告 → 最后发邮件 )
- 主动调用各种服务( 查天气、调用 API、执行 SQL、调用搜索引擎 )
- 多轮思考 + 状态追踪( 记住交互人的"说话记录"、"当前进度")
- 它具备哪些关键能力?(Goal->Planning->Task->Implement)
- Task( 任务 ): 理解 + 分解 + 执行
- Composition (调用外部工具,例如 API/数据库/搜索 等)
- Automatic : 多轮执行 + 上下文记忆
- Clustering: 多个智能体协作,完成复杂任务
- 举几个典型案例:
- LangChain / AutoGen 智能体:开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
比如,AI能: 自动查找资料 → 汇总成报告 → 发送通知,甚至可以自己生成代码并测试运行。 - Business App.: AI Copilot:如 Microsoft 365 Copilot,自动总结会议纪要、发邮件、安排日程
- Workflow Automation Augment(流程自动化增强):AI 自动办公机器人: 登录 OA 系统 → 审批报销 → 通知员工
- LangChain / AutoGen 智能体:开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
- 商业价值:
- 数字化办公助理:帮你整理文件、写文案、收集信息
- 智能客服和运营:根据用户对话自动查询订单、推荐商品
- 业务流程自动化:用 AI 替代重复点击和操作,提高效率
四:Physical AI(实体型AI)
AI 开始进入人类的"社会生活”,从"数字世界"走向"现实人类世界"!
我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。
- "模仿"出"人类的部分能力" : 这是 "AI能力" 在现实 "人类世界" 的体现。
感知(眼耳鼻舌等) -> 决策(类人脑的机器智能) -> 执行(动力、机械和电气化) -> 能"完成任务" 行动改变人类世界。 - 不是所有机器人都叫 Physical AI:
传统设备(如老式扫地机器人、机械臂) 只是 “预设程序驱动”的自动化产物。
真正的 Physical AI 是开始 有「感知→决策→执行」闭环 的设备(如 Tesla FSD、Atlas), 它们必须有:- 感知:能看到环境(如识别宠物/人)
- 表达:能用语音、图像反馈清扫状态
- 决策:能自主判断、规划任务(如动态避障)
- 执行:能越障、能动态适配环境
- 商业价值:
- 仓储自动化、柔性生产
- 生活服务机器人(陪护/清洁/配送)
- 实体场景劳动力替代:物流/酒店/医疗操作
这一阶段的 AI,不仅能想,还能做,甚至能替代人类“社会劳动”。
编者注:
这一阶段就更加神奇,
注意,即便是这里提到的所谓新一代Tesla FSD等代表形态,也只是为使大家更好理解,
只能算是Physical AI前期尝试的一个例子。
真正的Physical AI 时代,机器不但可以在物理世界行动,
还能够深入理解环境的 摩擦、惯性、因果关系、物体恒存等,
未来,在一些方面甚至可能要比人类理解的更加深入和透彻。
届时会出现各种各样的机器人等实体应用。
总结:AI 四阶段的能力演进图
| 阶段 | 关键词 | 核心能力 | 典型设备 | 商业价值 |
|---|---|---|---|---|
| Perception AI 感知理解 | 识别图像/语音/文本 | 监控摄像头 | 安防监控、医疗影像辅助 | |
| Generative AI | 表达创作 | 生成文本/图像/音频 | ChatGPT | 内容创作、营销自动化 |
| Agentic AI | 自主执行 | 拆任务/调工具/记状态 | AI办公助手 | 智能流程自动化 |
| Physical AI | 实体行动 | 控制物理设备与环境 | AI机器人 | 智能制造、无人服务终端 |
为什么要了解这个框架?
- 产品经理 → 定位产品阶段,定义能力边界与商业模式
- 技术专家 → 理解LLM+多模态+Agent+机器人融合路径
- 行业用户 → 预判哪些“智能能力”将重塑生产力
最后:你准备好迎接 Agentic 和 Physical AI 时代开启?
政策、资本、行业垄断力量 在对 "人类认知" 导向。
未来几年的 AI 创新,正处于 Agentic(第3阶段) 往 Physical(第4阶段) 升级的临界点。
机器人基础模型、人形机器人等突破正加速到来!

浙公网安备 33010602011771号