拆穿名词诈骗!用大白话理解晦涩难懂的AI概念

前言
现在的 AI 圈子有点像当年的互联网泡沫期,新名词满天飞。今天一个 RAG,明天一个 MCP,后天又是 Agent Skill。
互联网行业很多的朋友都被这些术语吓退,跟别提其它行业的朋友了。其实剥开这些“洋气”的外衣,会发现它们解决的都是很朴素的工程问题,所谓智能体就是所有不需要智能的部分构成的,部分 Skill 就是新瓶装旧酒的一场名词诈骗。当然资本和媒体的营销与造势也“功不可没”。
今天,我就按照我的理解,按照大模型领域发展的时间线,把这些概念像搭积木一样,从最底层的原理逐步向上构建,深度解析这些看似晦涩难懂的名词。
第一阶段:基石篇——大模型的“原子”与“记忆
一切的起点,都源于大模型本身及其处理信息的基本方式。
1. LLM(Large Language Model): 会玩文字接龙的天才
LLM 全称 Large Language Model,翻译成中文就是大语言模型,简称大模型。基本上现在所有的大模型都是基于 Transformer 这套架构训练出来的,这个架构看起来很复杂,实际上一点也不简单。我也只做基本了解,不理解它不影响我们理解其概念,然后用好它。大模型的底层引擎就是它 Transformer 架构最早其实是由 Google 团队在 2017 年的时候提出来的,对应的论文名是叫做 Attention Is All You Need。然而早期训练出来的模型,看起来很“弱智”, 直到 OpenAI 在 2022 年底推出的 GPT 3.5 才真正把它点燃并且引爆全世界。这时候的模型具备了一定的智能,它应该算是第一个真正达到可用级别的大模型了,用过的人都能感受到它的强大,此时它的训练的参数量已经非常庞大了,所以被称为了大语言模型。 仅仅几个月之后在 2023 年 3 月份 GPT 4 发布 它是直接把 AI 的能力天花板拉到了一个新的高度,直到今天 GPT-5.4 依然是业界的标杆之一。
介绍完了大模型的概念,接下来,我们直观认识一下,大模型的工作方式。首先,需要打破一个幻想:大模型并不是像科幻电影里面的机器人一样思考问题。
它的本质是一个超级巨大的“文字接龙”游戏,从工程视角看,它就是一个庞大的数学函数。你给它上文,它根据概率算出下一个最可能出现的字或者词,然后把这个字加进去,再算下一个,不断重复这个过程(预测下一个词 -> 塞回输入 -> 再预测),直到生成完整的回答。这就好像你打字时的“联想输入法”,只不过它的训练数据是整个互联网,所以它接出来的龙,有时候深邃得像哲学家,有时候又无聊得像复读机。它并不像人类一样真正“理解”语义。
2. Token: AI 的乐高积木——大模型的“最小计量单元”
既然大模型处理的是数学运算,它就无法直接读懂人类的文字,它接收的是数字 输出的也是数字,所以在人类和大模型之间 必须有一个中间人来做翻译,这个中间人就叫做 Tokenizer ,它负责的是编码和解码两件事情。编码就是把文字变成数字,解码反过来是把数字还原成文字。
你给大模型提一个问题,用自然语言描述了一句话,比如“你叫什么名字”,这句话会先交给 Tokenizer 处理,它要把这些文字转换成数字 需要分两步:
- 第一步切分,它把用户的问题接过来 把它拆成一个一个最小的片段,【"你","叫","什么","名字"】。这些片段就叫做 Token。我们这里一共是切出了 4 个 Token 。
- 第二步映射,由于模型只认数字, Tokenizer 就会把每一个 Token 对应到一个数字上去,举个例子:【"1011","2322", "6451", "3278"】。这个数字就叫做 Token ID。
Token ID 和 Token 是一一对应绑定的,Token 是文字,Token ID 是数字。这两个其实本质上是一个意思,只不过是换了种表达方式而已,经过了这两步,原来的一句话就变成了一串 Token ID 组成的列表。然后 Tokenizer 会把这串列表送进模型,模型在内部一顿运算。最终吐出了一个 Token ID, 这个时候 Tokenizer 再次出场, 把这个 Token ID 翻译回 Token, 这就是解码环节的工作了,解码只有一步,那就是映射,把数字转换成文字。前面提到,大模型本质上每次只能返回一个 Token ID, 然后会重复这个过程,直到回答完成。

上周二人民日报发文:token 在中文中被正式命名为“词元”。大模型在运算过程中需要消耗大量的能源,作为服务提供商,提供了服务,收取服务费用是应该的。但是它不能像传统服务接口那样,按调用次数收费,传统服务接口,每个接口有着固定的程式,调用之后的运算成本是可控的。大模型调用一次,用户是让它生成八百字的报告还是生成八万字的报告,这些都是未知且不可控的,于是服务商将 Token 作为计费单元。而这也就要求用户对大模型相关概念有一定的理解,如何使用,才能让大模型消耗最少的 Token 又能最精准的回答问题。

总结:
- 定义:Token 是大模型处理文本的最基本单元。
- 转换机制:在文字进入大模型前,会经过一个叫做 Tokenizer(分词器)的中间人。它的作用是将文字“切分”并“映射”为数字(Token ID);输出时再将数字解码回文字。
- 打个比方:如果把大模型比作厨师,文字就是食材,而 Token 就是被切好的丁、丝、片。一个汉字通常对应 1-2 个 Token,一个英文单词可能是一个,也可能是词根+词缀(如 "unhappiness" 可能被切分为 "un", "happi", "ness")。
- 重要性:Token 的数量直接决定了计算成本(费用)和模型的处理能力。
3. Context & Context Window & Memory:大模型的“工作记忆”
大模型本身没有长期记忆,它所有的回答都基于当次对话接收到的信息。只能一问一答,不能追问。
那为了进行多轮对话,有一个办法,就是在每次提问时,把前面的问题和它的回答,也就是历史记录当作背景信息带上,加上当前这次的问题,一起发送给大模型。当聊天轮次越来越多,历史记录就会越来越大,所以可以让大模型对前面的历史记录做一次总结精简之后记录下来,下次提问带上这个总结之后的记录作为背景信息就可以。这个记录就是大模型的上下文。
- Context (上下文):大模型每次处理任务时接收到的信息总和。这不仅包含你刚才的问题,还包含了之前的对话历史、系统设定的角色、甚至可用的工具列表。你可以把它看作是大模型的临时记忆体。
- Context Window (上下文窗口):这是大模型内存的“大小限制”。它代表了 Context 能够容纳的最大 Token 数量。
- 早期:窗口很小(如几千 Token),聊几句就会“失忆”。
- 现在:主流模型(如 GPT-4o, Claude Opus)已达到 100万 Token 级别,这意味着它能“记住”并处理整本《哈利波特》全集那么长的内容。
Context 指的是大模型在处理单次任务时所能接收到的全部信息总和,你可以把它看作是模型的“临时记忆体”或“工作记忆”。然后为了解决更复杂的场景,工程师们又设计出一种能够跨会话、跨任务保存、组织、检索并在后续使用的信息机制,就是 Memory(记忆)。 Memory 让 AI 具备了持续学习和个性化服务的能力。
一个强大的 AI 应用(Agent)需要 Context 和 Memory 的紧密配合。
- 接收任务:当你提出一个问题时,系统首先会构建当前的 Context(你的问题+对话历史)。
- 检索记忆:系统会根据你的问题,去 Memory(外部档案库)中检索相关的历史信息和知识。
- 整合生成:系统将检索到的“记忆”作为补充信息,注入到当前的“上下文”中,形成一个信息更丰富的完整上下文。
- 输出回答:大模型基于这个增强后的上下文,生成一个既符合当前情境又利用了历史知识的精准回答。
这种协同工作模式,正是当前 AI 技术从“单点能力”转向“系统化工程”的关键。它让 AI 不再是一个每次对话都从零开始的“健忘天才”,而是一个能够与你持续协作、不断成长的智能伙伴。

总结:
- Context:解决单次对话的多轮对话的问题。
- ContextWindow: 定义了 Context 容量大小限制。
- Memory:让 AI 具备了跨会话、跨任务的能力。
第二阶段:交互篇——如何指挥大模型
4. Prompt: 人机对话的“指令”
Prompt(提示词)就是你给大模型的具体问题或指令。比如你让模型“帮我写一首诗”,这句话就是 Prompt。
- User Prompt (用户提示词):用户直接输入的问题(如:“3+5等于几?”)。
- System Prompt (系统提示词):这是开发者在后台配置的“潜规则”。它定义了大模型的人设和行事准则,用户通常看不见。
- 例子:后台设定“你是一个耐心的数学老师,不要直接给答案,要引导学生”。当用户问 3+5 时,模型会回答“你可以试着数一下手指...”而不是直接说“8”。
Prompt 怎么写 直接决定了大模型的输出质量,一个好的 Prompt 应该是清晰的、具体的、明确的。
早期有个专门的领域叫做 Prompt Engineering ,也就是提示词工程。说白了就是研究怎么把话说明白,让大模型更精准地理解你的意图。但随着模型能力增强,现在即使指令模糊,模型也能较好地猜测意图。

第三阶段——扩展篇——给大模型装上“五官”与“工具箱”
纯靠参数知识的大模型存在两个致命弱点:知识会过时(训练数据有截止日期)和无法感知外界(如查天气、发邮件)。为了解决这些问题,技术开始向外扩展。
5. RAG (Retrieval Augmented Generation):外挂的“速查手册”
RAG(检索增强生成)是为了解决大模型“一本正经胡说八道”或知识陈旧的问题。
- 原理:当面对一个专业问题(如查询上千页的产品手册)时,不把整本书塞进 Context(那样太贵且会撑爆窗口),而是先通过语义检索,从外部数据库中找出最相关的几个片段,作为补充资料附在 Prompt 后面,让模型基于这些真实资料回答。
- 打个比方:这就像是开卷考试。RAG 让大模型在回答前,先快速翻了一下教科书的目录,找到了相关章节,然后再作答。

实际场景:比如某公司,有内部的文档,可能是私有的,不愿意公开的资料。大模型在训练阶段无法拿到这部分数据,那你在对其提问时,它肯定无法准确回答其中的内容。此时通过 RAG 就可以解决这个问题。
6. Tool (Function):大模型的“手脚”
有了前面的知识,一个原本只能进行词语接龙的大模型,现在变成了可以对话并且可以不断追问的优秀助理了。然后工程师就不满足于现状了,工程师发现的第一个问题就是大模型没有上网查阅资料的能力,要么就不知道,要么就胡说八道,说的内容都是些过时的消息。不过这很简单呀,给大模型准备一台电脑不就可以了。不可以, 还是那个问题,大模型本身只会词语接龙,其他任何逻辑都无法独立完成,那怎么办,好办,工程师就告诉大模型,如果它需要上网搜索资料的话,就告诉我,然后我帮忙查完资料后再给它不就行了?但很快工程师就发现,这样好像显得自己有点蠢,到底谁是谁的助理? 于是工程师把上网这部分逻辑写成了一段程序,让这个程序去代理工程师和大模型进行沟通并且完成搜索的任务,在外人看来仍然是一问一答就拿到了结果,只不过面向的是这个神秘的程序了,太妙了,这个发明可不得了。这段神秘的程序就是一个 Tool。
Tool(工具/函数)是大模型感知外部世界的接口。大模型本身只能做文字游戏,无法真正执行动作。Tool 就是一段代码(函数),输入参数,输出结果。
- 例子:天气查询工具、计算器、浏览器。
- 运作流程:
- 你问:“今天上海天气如何?”
- 大模型发现自己不知道,但看到可用工具列表里有“天气工具”。
- 它输出一段特定格式的文本(如 {"name": "get_weather", "arguments": {"city": "上海"}}),这叫工具调用(Tool Calling)。
- 中间的程序(Agent)识别这段文本,真正去调用天气 API。
- 把 API 返回的真实天气数据塞回给大模型,让它组织语言回答你。

第四阶段:架构篇——统一标准与智能体
7. MCP (Model Context Protocol):工具的“Type-C 接口”
MCP(模型上下文协议)是为了解决工具接入标准混乱而诞生的统一协议。它解决了一个核心痛点:如何让大模型安全、统一、标准化地连接外部世界(数据、工具、API)。
在 MCP 出现之前,AI 连接外部工具就像以前的手机充电线,每家厂商(OpenAI、Anthropic、Google)都有自己的接口标准,开发者每做一个新功能,都要重新写一套代码适配,非常繁琐且混乱。

MCP 的出现统一了标准:
- 以前:以前,如果你想把一个“查天气”的工具给 ChatGPT 用,需要写一套 OpenAI 格式的代码;给 Claude 用,又要写一套 Anthropic 格式的代码。开发者苦不堪言。
- 现在:你只需要开发一个符合 MCP 标准的“服务器”,按照 MCP 标准开发一次工具,它就可以被所有支持 MCP 的大模型平台(ChatGPT, Claude, Gemini 等)直接识别和调用,实现了工具的“一次开发,到处运行”。
8. Agent:给大模型装上了“手脚”
如果说大模型(LLM)是“博学的大脑”,那么 AI Agent(智能体) 就是给这个大脑装上了“手和脚”,并赋予了它“独立人格”和“记忆力”。它从一个被动的聊天机器人,变成了一个可以理解目标、自主拆解任务、调用工具并执行到底的智能实体。

可以把 Agent 拆解为四个核心组件,它们共同构成了一个能独立干活的“数字员工”:
| 组件 | 角色类比 | 功能解释 |
|---|---|---|
| LLM (大模型) | 大脑 | 负责理解意图、逻辑推理、生成决策。它是核心驱动力。 |
| Planning (规划) | 思维链 | 负责将复杂的大目标(如“做个网站”)拆解为一步步可执行的子任务(如“写HTML”、“写CSS”、“部署”)。 |
| Memory (记忆) | 经验库 | 包含短期记忆(上下文,记得刚才干了什么)和长期记忆(向量数据库,存储用户偏好、历史知识),确保持续协作不“失忆”。 |
| Tools (工具) | 手和脚 | 赋予 Agent 与外部世界交互的能力,如联网搜索、运行代码、操作 API、读写文件等。 |
Agent 的工作方式不再是线性的“输入->输出”,而是一个循环闭环。我们可以用一个“订机票”的例子来模拟这个过程:
- 感知 (Perception):
- 你告诉 Agent:“帮我订一张下周二去上海最便宜的机票。”
- 规划 (Planning):
- Agent 的大脑(LLM)开始思考:要完成这个任务,我需要先查下周二的具体日期,然后搜索航班信息,对比价格,最后调用支付接口。
- 行动 (Action/Tools):
- Agent 调用搜索工具查询航班列表。
- Agent 调用计算器对比价格。
- 反思与迭代 (Reflection):
- 如果发现下周二没票了,Agent 会自我反思:“计划行不通”,然后自动调整策略:“那我查查周三早上的票,或者看看临近城市的票。”(这是 Agent 区别于传统脚本的关键,它能自我纠错)。
- 结果 (Output):
- 最终,它将筛选好的航班链接和价格发给你确认,甚至直接帮你下单。
为什么 Agent 是现在的热点:
在 2025-2026 年的当下,Agent 之所以爆发,是因为它标志着 AI 从“内容生成”(生成一段文本/图片)转向了“任务解决”(解决一个实际问题)。
- 自主性:你不需要一步步教它怎么做,只需要给结果。
- 泛化能力:同一个 Agent,今天可以帮你写代码,明天可以帮你做旅行攻略,因为它依靠的是通用的推理能力,而不是写死的代码。
9. WorkFlow
前面提到 Agent 已经可以自主完成各类事情了。但是那些 Tools 还是需要编码完成。对于普通用户来说,有一定的门槛。于是诞生了很多的低代码平台,比如 Dify、Coze 等。

在低代码平台的产品界面上,Workflow 往往被视为智能体的一种具体表现形式(即“基于工作流的智能体”),但是它和智能体还是有本质的区别。 Workflow 需要用户确定好第一步做什么,第二步做什么,用户在画布上拖拽节点,创建出一条条“带 AI 插件的流水线”。它和真正 Agent 的区别在于,Workflow 是人为决策的,Agent 是目标驱动自主决策。
适用场景:企业里那些必须按规矩办事的流程,比如“合同审批”、“发票报销”。这里如果用纯 Agent,可能会因为 AI 乱发挥而出错,所以必须用 Workflow 锁死步骤。
第五阶段——应用篇——技能化与未来
10. Agent Skill
最后,我们来到了目前最前沿的 Skill(技能) 阶段,这是 Agent 走向工程化、模块化的关键一步。
Agent Skill 本质上是给 Agent 看的一份说明文档(通常是一个 Markdown 文件)。

- 痛点:虽然 Agent 很聪明,但如果你有一些非常私人的、复杂的固定规则(比如特定的周报格式、特定的出门检查清单),每次都靠自然语言描述给 Agent,它容易忘、容易错,而且消耗昂贵的 Token。
- 定义:Skill 就是将这些复杂的、固定的流程打包成一个独立的“技能包”。
- 结构:
- 元数据层:技能的名字、描述(相当于门牌号)。
- 指令层:具体的执行步骤、判断逻辑、输出格式、示例(相当于操作手册)。
- 运作逻辑:
- 按需加载:系统不会把所有技能都塞进 Context(那样太占内存)。当用户提到“写周报”时,系统发现匹配“WeeklyReport”技能,才把这份几百行的详细说明书加载进内存。
- 渐进式披露:平时它只是一个名字,用的时候才展开成复杂的逻辑,极大地节省了成本并提高了准确性。
- 打个比方:
- Workflow(工作流) 像是铺设好的铁轨,列车必须严格按照固定的路线行驶,遇到障碍无法变通。
- Agent Skill 像是一个经验丰富的司机,你告诉它目的地(目标),它根据路况(当前环境)和手中的地图(Skill 文档),自己规划路线开车过去。
总结
回顾这一路的发展,大模型技术的演进逻辑是从单一到复合,从通用到专用:
- LLM 是引擎,Token 是燃料,Context 是工作台。
- Prompt 是方向盘,RAG 是外挂知识库,Tool 是手脚。
- MCP 是统一的插座标准,让工具能即插即用。
- Agent 是整车,具备了自动驾驶(自主规划)的能力。
- Skill 则是车载的“自动驾驶辅助模块”,让车不仅能开,还能熟练掌握各种特定路况(如倒车入库、高速巡航)。
理解了这些概念,你就看懂了当前 AI 领域几乎所有产品(如 Claude Code, OpenClaw 等)背后的底层逻辑。未来,随着 Token 成本的降低和技术的成熟,这些概念将进一步融合,让 AI 真正成为我们得力的“数字员工”。

一篇文章,彻底搞懂2022年至今的AI术语概念。
浙公网安备 33010602011771号