词元 指令 分词器 向量化 计算关系 输出回答
Token,正在重新计量世界
图源:City News Service
随着以OpenClaw为代表的AI Agent加速进入日常生活,“Token”也从技术圈的专业术语,变成越来越多人频繁提起的新词。
3月23日,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏将Token的中文译法明确为“词元”[1]。至此,这个原本略显陌生的技术概念,拥有了更统一的中文表达,也进一步走入公共讨论。
“词元”支撑了AI时代模型的理解、生成与交互。它隐于模型之后,却参与了每一次提问、每一次回答,也在不断决定AI的成本、效率与能力边界。
那么,Token究竟是什么?它如何能像“货币”一样,成为AI时代衡量资源与价值的基本单位?而当AI开始接管越来越多的社会场域,Token又将如何影响我们未来的工作与生活?
01 Token,如何成为AI时代的“基本货币”?
Token,是人工智能时代智能设备中信息存储、处理和交换的具有一定语义的基本符号单元。[2]
如果说工业时代许多资源最终要折算成电力消耗,那么在大模型时代,越来越多的智能活动正在被折算为Token的处理量。在用户向模型输出指令后,模型会将文本拆分成最小处理单元、计算单元直接的关系并输出文本。而这个最小处理单元,正是Token。
在多模态模型中,这一机制被进一步扩展到图像等非文本信息。看似连续的图像会被切分为更小的视觉片段(如图像块或特征区域),并通过编码过程转化为一组可以参与计算的Token序列,从而纳入同一套计算与生成框架之中。
Token一头连着模型能力,另一头连着算力成本,因此也逐渐成为观察AI运行的一把尺子。消耗的Token越多,通常意味着模型需要处理的内容越长、上下文越复杂、推理链条越深,对计算资源的占用也越高。
如今,Token经济已经出现按量收费、包月收费以及按价值收费三种商业模式[3]。许多大模型产品之所以不再只是按次数计价,而是转向按输入和输出的Token数量计价,本质上正是因为Token比提问次数更能说明模型真实的资源消耗。这种变化,也让Token成为了一项可以被持续追踪的产业指标。
过去两年,Token调用量的增长速度极快。公开数据表明,2022年中至2025年中,相关平台的Token处理量在3年间增长了10倍,到2025年中已突破100万亿Token[4]。对应到国内市场,2024年初,我国日均Token调用量约为0.1万亿;至2025年底,跃升至100万亿[5]。Token经济的井喷式发展背后,除了人工智能技术的步步提升之外,不可忽视的是AI与人们越来越不可分割的关系。
02 同样是Token,为什么价格差这么多?
当Token进入计费体系后,它就不再只是模型内部的处理单位,也成为整个AI产业通用的价格刻度。但问题也随之出现:同样是Token,为什么价格并不一样?
最明显的一层差异,来自输入与输出的区分。对大多数大模型公司来说,输入Token和输出Token通常分开计价,而且输出往往更贵。在模型读取指令并生成内容的过程中,消耗算力最多的部分,往往是逐词生成答案时持续进行预测与计算的过程。
价格差异也存在于不同模型之间。不同模型的能力、上下文长度和稳定性不同,Token的定价也随之拉开。模型越强、可处理的上下文越长,价格通常越高。很多时候,平台卖的并不只是Token数量本身,而是这个Token背后所调用的模型能力。
此外,由于分词方式与语言结构的差异,相同语义在不同语言中所对应的Token数量可能存在显著差别,这使得不同语言的表达在计算消耗上并不完全等价。
Token在不同模型、不同平台、不同场景中被标出不同的价格,这背后还牵连着一条更长的成本链。从电力、芯片到数据中心,从模型能力到应用需求,几乎每一层因素,都会参与决定一个Token的最终价值。

从这个意义上说,Token不只是大模型计费表上的一个数字,更像是整个AI产业链的晴雨表。
03 当我们开始用Token计量工作
AI产业发展如火如荼,Token也逐渐进入寻常百姓家。
在最开始使用AI时,我们往往会延续和真实人类对话的习惯,随意提问、不断追问、反复修正表达。然而与AI的对话并不能如真人沟通般顺畅自然,生成的回答总会在关键处停下来,免费额度或付费积分可能会在几个回合之下用尽,只能等到多个小时乃至数天后再开启。
于是,用户开始自发地调整与AI的互动方式。要不要先给背景信息?一次性说清楚还是分几步提问?我们在网上学习更高效的Prompt模板,为降低反复调用模型所产生的成本而有意识地减少对话轮数,甚至因是否该向AI道谢而犹豫不决。
在更高频、也更具目的性的使用情境中,持续且规模化的Token消耗已成为常态。无论是学术研究、内容生产、技术开发,还是日常的信息处理与沟通辅助,只要AI被引入其中,Token几乎都会成为一个不可绕开的中介。而当使用场景不断扩展、使用频率持续提升,这一原本隐匿于模型内部的计量方式,也随之成为连接不同领域、不同需求的通用基础。
但这种变化并不完全来自个体的主动选择。随着AI在工作体系中的深入应用,一系列围绕Token展开的规则正在逐渐形成,并开始以制度化的方式影响使用行为。
AI系统的成本不再按照时间或人力计算,而是围绕Token展开,语言本身第一次被纳入成本核算体系。在实践中,提示词长度、上下文规模与模型复杂度都会直接影响Token消耗,从而影响企业支出。正如Deloitte在报告中指出,传统IT成本模型已难以适应当前的商业形式,“企业必须围绕Token消费建立新的预测、监控与优化机制”。[6]
在这一过程中,Token也正在进入企业预算与组织结构。英伟达首席执行官黄仁勋在3月表示,他会在工程师的常规工资之外,额外发放相当于其基本工资一半左右的Token预算[7]。一些技术岗位也已将token使用预算纳入薪酬谈判,成为继工资与股票之外的“新资源配置项”。
但更深层的变化在于,Token正在重新定义知识劳动本身。同一任务在不同模型或推理路径下的Token消耗可能出现数倍乃至数量级差异,这意味着工作效率愈加取决于Token的组织与调度能力。
在这种背景下,企业往往倾向于将“更频繁地使用AI”等同于“更高效地完成任务”,并出于对降本增效的需求,不断鼓励和推行AI工具的使用。某AI独角兽员工小姜提到,公司已在年会上对Cursor账户Token使用量最高的员工进行表彰,许多互联网企业也会开展“Token竞赛”,不仅对使用量更高者给予奖励,使用量较低者甚至可能面临绩效压力。

一名网友发帖提到其所在公司已经开始根据Token消耗量对员工进行排名/
图源:小红书
04 如何用Token计量未来?
通过将思考与表达变为资源分配,Token俨然已成为新时代的粮票,而其所带来的社会影响正在沿着更广泛的路径延伸。
作为统一的计量单位,Token看似为AI使用建立了一套标准化尺度,但这种统一在不同语言之间并不完全成立。在现有分词机制下,不同语言在表达相同语义时所需的Token数量可能存在显著差异:低资源语言存在Tokenization premium(Token溢价),即需要数倍Token来表达相同内容,非拉丁语言的Token成本通常是英语的3–5倍。这些Token分词溢价本质上是一种语言特有的“税”,表现为API成本增加、计算成本/电力消耗增加以及有效输入窗口缩小。[8]
当某种语言需要更多Token才能完成同样的表达时,这种差异就会直接体现在成本、响应速度以及上下文承载能力上。
2023年的一项研究发现,实验的平均财务成本、模型效用(性能)以及每种语言所在国家的人类发展指数之间大多存在负相关关系,华盛顿大学的研究者将此称为“双重不平等”:经济欠发达国家的用户由于过度分词而被收取固定的单次分词费用,但从模型中获得的效用往往却更少。[9]由此,Token作为统一单位所带来的标准化并没有完全抹平差异,反而在某些情况下将语言进一步转化为新的使用门槛。
与此同时,这种看似抽象的计量方式,背后仍然连接着具体的物理世界。AI模型的训练和部署主要在数据中心进行,每一次Token的生成与消耗,都依赖于算力、电力与数据中心的支持。
一个典型的人工智能数据中心耗电量相当于10万户家庭的用电量,而目前正在建设的最大型数据中心的耗电量将是其20倍。Token消费越大,意味着需要更多的计算量,其对应的能源消耗与基础设施压力也在同步增长。
随着生成式AI被嵌入日常应用与企业系统,大规模Token生产正在转化为持续的基础设施负载。国际能源署(IEA)在2025年的报告表明,数据中心已消耗全球约1%至1.5%的电力,到2030年这一数字预计将增加一倍以上,而AI工作负载正成为其中增长最快的部分[10]。Token的持续增长,意味着计算需求、能源消耗与碳足迹的潜在上升,这使得AI的发展开始与气候与可持续性议题发生直接关联。
Token让AI变得可计算,也让人类的认知活动第一次被如此精细地量化。许多人在AI浪潮中首次意识到,原来我们的思考、表达和决策都是有成本、可估量、需管理的——当作为大脑总指挥官的前额叶罢工时,其实就是人类自己的Token用光了,“能工智人”(即能工作的智人,是AI时代人们对自身的一种带有调侃的称谓)也需要冷静期。
在可被计算的表达与不可被简化的意义之间,我们也在重新学习如何提问与思考。想再回到那个完全无需计算提问代价的时刻或许很难,而如何在效率与意义之间展开行动,正是这个时代留给我们的新问题。
(文中受访者为化名,感谢受访者对文章的支持!)

浙公网安备 33010602011771号