去年春天,Meta内部有一个名为"Claudeonomics"的排行榜——它对消耗AI Token最多的250名员工进行排名。据The Information报道,一些人通过在无意义的并行任务上运行Agent来刷榜。月消耗量突破了60万亿Token,然后是73万亿。排行榜随后被撤下。
上周,同一家公司宣布对员工实施Token限额,理由是今年预计内部AI成本将达数十亿美元。
于是几个月内,Meta从"Token极大化"走向了"Token极小化"。
这看起来是两个截然相反的政策。但我认为它们是同一个错误,犯了两次。
两者都把Token——一个输入指标——当作管理单位。而输入指标无论你朝哪个方向推动,都会失灵。告诉人们去最大化,他们就会用无意义的工作来膨胀数字。告诉他们去最小化,他们就会在该花的地方停止投入。古德哈特定律(Goodhart's Law),在Token时代重演。
有一点让我无法释怀:Meta的CTO早在4月就写出了正确的诊断。"Token使用量本身不是衡量影响力的指标",他的备忘录如是说。他说得对。然后公司建造了……一个更精确的Token计量器。为什么?因为当你没有衡量影响力的工具时,你就测量你能测量的东西。
这不仅仅是Meta的问题。据报道,Uber和ServiceNow在几个月内就烧完了年度AI预算。德勤4月的CFO指南将这一新学科命名为"Token经济学(tokenomics)",并警告利润泄漏——Token成本隐藏在SaaS合同和云账单中,直到大到无法忽视。安永发现单次聊天交互的成本在三年内上涨了约30倍,并引用Gartner的预测:到2027年底,超过40%的Agentic AI项目将被取消,主要原因是成本和价值不明确。
所有人都认同诊断。但每一剂处方都以Token为计量单位:预测总量、降低单价、设定预算。
Token级别的成本追踪就是一张企业信用卡账单。它告诉你花了多少钱。但账单只会给你一个指令——少花。管理层需要的是一个向量,而不是一个方向:在哪里削减,在哪里加大投入。为此,成本必须归属到组织实际运行的单元上。这笔支出服务于哪项工作?在谁的责任之下?它创造了什么价值,还是规避了什么风险?
我认为正确的核算单位是决策(Decision)。不是董事会级别的决策——而是Agent每一个做出承诺的节点。查询客户数据。确定最终答案。重试失败的调用。决定停止搜索。升级给人类处理。将工单关闭为"无需行动"。每一个承诺节点都是一个决策,它是责任能够附着的最小单位。
以决策为单位计量,两件事会改变。第一,思考的成本得到了捍卫。花在阅读来源、生成被否决的替代方案上的Token——这些是Token限额制度下最先被砍掉的支出。而在决策级别的账本中,同样的支出变成了质量的证据:"这个决策是在考虑了三个替代方案后做出的。"第二,你终于能看到改进的方向:哪个Agent在循环空转、消耗Token却从未达成一个决策;哪个昂贵的决策阻止了一次事故,值得获得更多预算而非更少。
所以我想提出一个词。
Tokenworthy——这项工作值得消耗这些Token吗?不是"多少",而是"是否合格"。航空公司不会运营飞得多或飞得少的飞机;他们运营的是被认证为"适航(airworthy)"的飞机。适航性不是一个形容词,而是一套评估体系。Token支出也值得拥有一套这样的体系。
而支撑这个问题的学科是决策经济学(Decision Economics),而非Token经济学(Token Economics)。Token经济学计量输入。决策经济学将每一个Token归属到它所服务的决策,并追问那个决策值多少。
今年,Token成本将摆上每一位CFO的办公桌。届时有两条路可走。计量Token的公司将持续在极大化和极小化之间震荡。计量决策的公司将实现优化。
浙公网安备 33010602011771号