Claude Fable和Claude Mythos 5同时发布:注意力机制下愈加强大的AI大模型

2026年10月6号,Anthropic”两连发“:Claude Fable和Claude Mythos 5同时发布。

AI能力愈加的强大,而且更加的全面。

每一次AI新动态的发布,都预示着AI能力的又一次增强。

但AI的能力,不是一下变强的,而是有一个不断学习不断进化的过程!

这一切,可以从十年前说起……

2016年,AlphaGo击败了世界围棋冠军柯洁。一时间,AI统治世界的说法甚嚣尘上。

但很快人们发现,那个只会下棋的AI,离开棋盘就什么也不会了。它不认识猫,不会写邮件,更不懂什么叫"今天加班好累"。

这几乎是所有传统AI的缩影:专精一件事,换个任务就抓瞎。

配图_AlphaGo局限_20260528_v1.0

大语言模型改变了这个局面。

它不再是一个只会下棋的AI,而是真正学会了"语言"本身。学会了语言之后,写作、编程、翻译、分析、对话,所有这些原本需要专门AI才能做的事,一个模型全部搞定。

那么,大语言模型到底是怎么炼成的?


传统AI的语言困境

在理解大语言模型之前,有必要先理解它踩过的坑。

2017年以前,AI处理语言的方式,说起来有些笨拙。

它读一句话,是从左到右逐词推进的。读到第三个词时,只能参考前两个词的意思;读到第十个词,前九个词的意思已经模糊了,更看不到后面的内容。这就好比蒙着眼睛读书,每读一个词,前面的内容就在记忆里逐渐褪色。

这种"单向阅读"的局限,带来一个根本性的问题:AI很难理解语境。

"苹果"在"我买了三斤苹果"里指的是水果,在"苹果又发布新品了"里指的是公司。这两个意思,普通人扫一眼就能分辨,但传统AI做不到,它需要人提前把所有可能的解释告诉它,否则遇到了就只能是瞎猜。

更麻烦的是,传统AI靠"死记硬背"来工作。一个词是什么意思、一个句子该怎么翻译、一段话是正面的还是负面的,这些规则都需要人工一项项写进去。换个场景,整个过程就要重来一遍。你让AI识别猫,要专门用猫的图片训练;让它识别狗,又得重新开始。每一个新任务,都是从零出发。

这种模式的天花板很低:规则越写越多,维护越来越难,泛化能力几乎为零。

2017年,一篇论文彻底打破了这种困境。


Transformer:注意力改变一切

2017年6月,Google发表了一篇论文,标题叫《Attention Is All You Need》。翻译过来是"注意力就是你所需要的一切"。

这篇论文后来被称为AI行业的"iPhone时刻"。它带来了一种全新的模型架构,名为Transformer,彻底改变了AI处理语言的方式。

Transformer的核心创新叫做注意力机制(Attention Mechanism)

原理并不复杂。处理一句话里的某个词时,注意力机制让AI同时看到整句话里所有的词,然后自己判断:当前这个词和哪几个词的关系最密切,应该重点参考哪一个。

图片

这就像你读一句话,不是逐字死抠,而是抬起头来,一眼扫过去,立刻知道哪些词是关键词,哪些词是修饰语,哪些词和哪些词在互相呼应。

注意力机制带来了一个关键能力:上下文学习(In-Context Learning)

简单来说:不需要重新训练模型,只需要给几个例子,AI就能学会一项新任务。

举个例子。你想让AI判断一段话是正面的还是负面的情绪。传统做法是先收集大量标注数据,再训练一个专门的分类模型。而现在,你只需要给AI看几个例子:

  • "今天加薪了!"是正面的

  • "这篇报告写得太烂了"是负面的

  • "项目终于上线了"是正面的

然后问它"老板今天夸我了"是什么情绪?AI立刻就能判断出来。整个过程没有重新训练,零成本,几秒钟搞定。

这种"见招拆招"的能力,是Transformer带来的最大突破。


大语言模型是怎样炼成的

有了注意力机制打底,大语言模型的训练才成为可能。但"有了一个好架构"和"炼成一个真正好用的模型"之间,还隔着漫长的工程过程。

大语言模型的训练分为三个阶段。

第一阶段:预训练(包罗万象)

预训练的目标,是让模型"认识世界"。

配图_预训微调_20260528_v1.0

训练方式说起来很直接:给大模型一段话,盖住后面的内容,让它预测被盖住的是什么词。一开始,模型预测得完全不对,但随着训练的推进,它逐渐学会了语法规则、事实知识、逻辑推理,甚至一些基本的常识。

这个过程需要三样东西:海量数据、巨大算力、漫长时间。

以GPT-5 Ultra为例,公开资料显示它使用了超过15万亿个Token的训练数据,参数规模达到万亿级别,需要消耗数万块高端GPU,耗时数月。预训练烧掉的钱,通常以亿美元计算。

预训练给模型带来了海量的知识储备。但光有知识还不够,模型像一个读遍天下书的学者,却不知道怎么和人聊天。这就是第二个阶段要解决的问题。

第二阶段:微调——学会对话

微调的核心思路,是通过高质量的问答样本来调整模型的行为。

训练数据长这样:"问:如何写一封正式的工作邮件?答:开头要称呼对方,说明来意,正文要条理清晰,结尾要表示感谢和期待回复。"

模型通过这些例子学会理解问题、组织回答、给出有用的信息。再也不是照本宣科,而是有来有往的对话感。

因为知识已经在预训练阶段装进去了,微调的成本比预训练低得多。但微调的质量直接决定了模型"好不好用"。一个微调得好的模型,回答专业问题条理清晰;微调得差的模型,回答问题东拉西扯,不知所云。

第三阶段:强化学习(对齐人类偏好)

微调后的模型能正常对话了,但回答质量参差不齐。有人喜欢严谨专业的回答,有人喜欢轻松活泼的交流。强化学习的任务,就是把模型的行为调到符合人类预期的方向。

具体做法很有意思:让大模型针对同一个问题生成多个回答,由人工给这些回答打分排序。模型根据打分反馈不断调整,一轮又一轮,直到它的回答越来越符合"好答案"的标准。

经过这种训练,Claude变得更保守严谨,遇到不确定的问题倾向于说"这个我不清楚";ChatGPT变得更健谈,愿意尝试回答各种问题,即便答案可能不够完美。


涌现能力:规模出奇迹

在不断训练的过程中,研究人员发现了一个有趣的现象。

当模型大到某个临界点时,某些能力会突然出现,在此之前完全检测不到。

最典型的例子是思维链推理(Chain-of-Thought),即让AI一步步拆解问题再给出答案。这种能力在小模型上几乎不存在,参数规模一旦超过临界点,就会像被点亮一样涌现出来。

GPT-3有1750亿参数,GPT-5 Ultra参数规模达到万亿级别。两者的能力差距不是线性的,而是跳跃式的,不是一个比一个强一点,而是一个能做的事,另一个根本做不了。

这种"量变引起质变"的现象,被研究人员称

配图_万亿时代_20260528_v1.0

理解这一点,对我们理解大语言模型很重要:模型的能力不是均匀提升的,而是在某个规模门槛突然解锁的。这也是为什么,大模型的竞争本质上是算力和数据的竞争,规模决定能力。


它真的"懂"了吗

大语言模型已经能写文章、分析数据、帮你做决策,但一个根本问题始终悬而未决:它真的"理解"语言了吗?

严格来说,大语言模型的本质是"预测下一个词的概率分布",而不是"检索正确答案"。它知道什么样的句子听起来像真话,但它并不知道哪些是真话、哪些是编造的。这种现象,业界叫做幻觉(Hallucination)

一个经典的测试是:问AI"鲁迅和周树人是不是同一个人",它答对的概率很高;但问"周作人是鲁迅的什么人",它就开始编故事了。编得有模有样,普通人根本分辨不出来。

这不是AI在撒谎,它只是不知道自己在胡说八道。

这个局限很重要。理解了这一点,就知道AI是一个"很会说话、但不一定说真话"的工具,而不是一个全知全能的百科全书。

用它来处理需要高准确性的任务时,一定要给它足够的信息参考,要求它标注不确定的答案,或者在关键决策前交叉验证多个模型的结果。


大语言模型的意义,不仅在于它能做很多事,更在于它证明了"通用"这条路是走得通的。一个模型可以学会写作、编程、翻译、分析,不需要为每件事单独训练一个AI。

这种通用性,是AI真正从"工具"走向"助手"的开始。

posted @ 2026-06-22 08:00  岳小哥AI  阅读(114)  评论(0)    收藏  举报