sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI

sciTech-BigDataAIML：

Abbreviation(英文缩写词)：

CV( Computer Vision ) = 计算机视觉，是 AI (人工智能) 领域的一个重要分支，
研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。
ASR( Automatic Speech Recognition ) = 自动语音识别，使机器听懂人说话，转成文本。
OCR( Optical Character Recognition ) = 光学字符识别，使机器从图片中读出文字，看懂文字，
本质是CV（计算机视觉）的细分任务。

AI 发展"四阶段“: "看懂世界”到“改造世界”

序言

过去几年，人工智能一路飞升，从识图识声，到能写能画，再到能干活做决策，
甚至走上现实生活的“物理战场”。你是否也曾寻思，AI到底发展到哪个阶段了？
又有哪些能力正在悄悄进化？

Nvidia创始人 Jensen Huang(黄仁勋) 在 GTC 2025 提出AI 发展四个阶段。
每一阶段，都是一次技术跃迁。看完本文，你将秒懂它们的本质区别与商业机会。
今天，我们就来具体聊聊 AI 发展的四个阶段：

Perception AI → Generative AI → Agentic AI → Physical AI

一：Perception AI: AI 看得见、听得懂、读得清

这是 AI 的“眼睛”和“耳朵”，它让机器第一次具备“理解世界”的能力。

代表能力：
- CV (图像识别)：人脸识别、目标检测、安防监控
- ASR (语音识别）：语音助手、电话客服
- OCR (文本识别）：发票识别、合同解析
- Other: 情感分析、实体识别、关键词抽取等
商业价值：
- 金融风控：票据识别、影像审核
- 医疗影像：病灶检测、报告辅助
- 智能硬件：智能安防摄像头、车载感知系统
Pros. & Cons.：
- Pros.: 聚焦感知能力, AI能看(CV: 图像识别)、听(ASR: 语音识别)、读(OCR: 等基本任务) 的"感知"，是AI起点。
- Cons.: 这阶段的AI虽然智能，但只能“看见”世界，无法“改变”世界。

二：Generative AI:

使 AI 能“表达”“创作”，第一次能创意和内容输出能力.
这一时期的主角，你一定熟：ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成) …

用Generative AI的能力，帮助作者创作本文这样的科普文章
- 先提出要求给它，帮我生成初稿，
- 后反复校对修改，确保符合自己最初的意图，
- 对比以前的从零开始模式，效率上要提升很多。
代表能力：
Text: 生成文本：聊天、文章、摘要、代码
Graphic: 生成图像：海报设计、产品图、插画
Audio: 生成音频/音乐：AI歌手、播报配音
Fusion: 多模态融合：文字转视频、图像转语音
商业价值：
- Content Creation(内容创作)：AI 写作、AI 配图、AI 视频
- Marketing Automation(营销自动化)：文案生成、广告素材组合
- Programming Assistant(编程助手)：GitHub Copilot、APEX AI Assistant

这一阶段的 AI 就像“有创造力的 Secretary(秘书)”，大大提高内容产业的效率。

三：Agentic AI(智能体AI)

真正能“接受并完成任务”的 AI 时代来了:
这阶段的 AI : 不只是工具，而是真正“可交付任务的虚拟员工”。
这一阶段就有些强大，如果 ChatGPT 比喻 “聪明的对话机”，
那么 Agentic AI 就是你可以"交付任务"的"数字智能机器人"。

每个智能体都可以有 "机器智能"的"自主决策" 去"完成实际的任务"，不需要 "人工干预" 就能得到比较好的结果。
Agentic AI Service 的当前 "服务期等待时间" 肯定要比直接的 Generative AI (生成式AI) 要久.
因为 "Agentic AI智能体" 通常要涉及"多次的服务调用"，"多次的LLM模型交互", 等;
但是，很多场景下这都不是问题，人们通常可接受 "多花一些时间" 得到 "更靠谱更符合预期的结果" 。

Agentic AI: 不仅能 "理解" 人的"需求"，还能 "想办法" 去 "完成任务"，比如：
- 自动拆解步骤( 先查资料 → 再写报告 → 最后发邮件 )
- 主动调用各种服务( 查天气、调用 API、执行 SQL、调用搜索引擎 )
- 多轮思考 + 状态追踪( 记住交互人的"说话记录"、"当前进度"）
它具备哪些关键能力？（Goal->Planning->Task->Implement）
- Task( 任务 ): 理解 + 分解 + 执行
- Composition (调用外部工具，例如 API/数据库/搜索等）
- Automatic : 多轮执行 + 上下文记忆
- Clustering: 多个智能体协作，完成复杂任务
举几个典型案例：
- LangChain / AutoGen 智能体：开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
  比如，AI能: 自动查找资料 → 汇总成报告 → 发送通知，甚至可以自己生成代码并测试运行。
- Business App.: AI Copilot：如 Microsoft 365 Copilot，自动总结会议纪要、发邮件、安排日程
- Workflow Automation Augment(流程自动化增强)：AI 自动办公机器人: 登录 OA 系统 → 审批报销 → 通知员工
商业价值：
- 数字化办公助理：帮你整理文件、写文案、收集信息
- 智能客服和运营：根据用户对话自动查询订单、推荐商品
- 业务流程自动化：用 AI 替代重复点击和操作，提高效率

四：Physical AI(实体型AI)

AI 开始进入人类的"社会生活”，从"数字世界"走向"现实人类世界"！
我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。

"模仿"出"人类的部分能力" : 这是 "AI能力" 在现实 "人类世界" 的体现。
感知(眼耳鼻舌等) -> 决策(类人脑的机器智能) -> 执行(动力、机械和电气化) -> 能"完成任务" 行动改变人类世界。
不是所有机器人都叫 Physical AI:
传统设备(如老式扫地机器人、机械臂) 只是 “预设程序驱动”的自动化产物。
真正的 Physical AI 是开始 有「感知→决策→执行」闭环 的设备(如 Tesla FSD、Atlas), 它们必须有：
- 感知：能看到环境（如识别宠物/人）
- 表达：能用语音、图像反馈清扫状态
- 决策：能自主判断、规划任务（如动态避障）
- 执行：能越障、能动态适配环境
商业价值：
- 仓储自动化、柔性生产
- 生活服务机器人（陪护/清洁/配送）
- 实体场景劳动力替代：物流/酒店/医疗操作

这一阶段的 AI，不仅能想，还能做，甚至能替代人类“社会劳动”。

编者注：
这一阶段就更加神奇，
注意，即便是这里提到的所谓新一代Tesla FSD等代表形态，也只是为使大家更好理解，
只能算是Physical AI前期尝试的一个例子。
真正的Physical AI 时代，机器不但可以在物理世界行动，
还能够深入理解环境的摩擦、惯性、因果关系、物体恒存等，
未来，在一些方面甚至可能要比人类理解的更加深入和透彻。
届时会出现各种各样的机器人等实体应用。

总结：AI 四阶段的能力演进图

阶段	关键词	核心能力	典型设备	商业价值
Perception AI 感知理解	识别图像/语音/文本	监控摄像头	安防监控、医疗影像辅助
Generative AI	表达创作	生成文本/图像/音频	ChatGPT	内容创作、营销自动化
Agentic AI	自主执行	拆任务/调工具/记状态	AI办公助手	智能流程自动化
Physical AI	实体行动	控制物理设备与环境	AI机器人	智能制造、无人服务终端

为什么要了解这个框架？

产品经理 → 定位产品阶段，定义能力边界与商业模式
技术专家 → 理解LLM+多模态+Agent+机器人融合路径
行业用户 → 预判哪些“智能能力”将重塑生产力

最后：你准备好迎接 Agentic 和 Physical AI 时代开启？

政策、资本、行业垄断力量在对 "人类认知" 导向。
未来几年的 AI 创新，正处于 Agentic(第3阶段) 往 Physical(第4阶段) 升级的临界点。
机器人基础模型、人形机器人等突破正加速到来！

posted @ 2025-06-21 17:33 abaelhe 阅读(99) 评论(0) 收藏举报

刷新页面返回顶部

abaelhe