Claude Fable和Claude Mythos 5同时发布：注意力机制下愈加强大的AI大模型

2026年10月6号，Anthropic”两连发“：Claude Fable和Claude Mythos 5同时发布。

AI能力愈加的强大，而且更加的全面。

每一次AI新动态的发布，都预示着AI能力的又一次增强。

但AI的能力，不是一下变强的，而是有一个不断学习不断进化的过程！

这一切，可以从十年前说起……

2016年，AlphaGo击败了世界围棋冠军柯洁。一时间，AI统治世界的说法甚嚣尘上。

但很快人们发现，那个只会下棋的AI，离开棋盘就什么也不会了。它不认识猫，不会写邮件，更不懂什么叫"今天加班好累"。

这几乎是所有传统AI的缩影：专精一件事，换个任务就抓瞎。

大语言模型改变了这个局面。

它不再是一个只会下棋的AI，而是真正学会了"语言"本身。学会了语言之后，写作、编程、翻译、分析、对话，所有这些原本需要专门AI才能做的事，一个模型全部搞定。

那么，大语言模型到底是怎么炼成的？

传统AI的语言困境

在理解大语言模型之前，有必要先理解它踩过的坑。

2017年以前，AI处理语言的方式，说起来有些笨拙。

它读一句话，是从左到右逐词推进的。读到第三个词时，只能参考前两个词的意思；读到第十个词，前九个词的意思已经模糊了，更看不到后面的内容。这就好比蒙着眼睛读书，每读一个词，前面的内容就在记忆里逐渐褪色。

这种"单向阅读"的局限，带来一个根本性的问题：AI很难理解语境。

"苹果"在"我买了三斤苹果"里指的是水果，在"苹果又发布新品了"里指的是公司。这两个意思，普通人扫一眼就能分辨，但传统AI做不到，它需要人提前把所有可能的解释告诉它，否则遇到了就只能是瞎猜。

更麻烦的是，传统AI靠"死记硬背"来工作。一个词是什么意思、一个句子该怎么翻译、一段话是正面的还是负面的，这些规则都需要人工一项项写进去。换个场景，整个过程就要重来一遍。你让AI识别猫，要专门用猫的图片训练；让它识别狗，又得重新开始。每一个新任务，都是从零出发。

这种模式的天花板很低：规则越写越多，维护越来越难，泛化能力几乎为零。

2017年，一篇论文彻底打破了这种困境。

Transformer：注意力改变一切

2017年6月，Google发表了一篇论文，标题叫《Attention Is All You Need》。翻译过来是"注意力就是你所需要的一切"。

这篇论文后来被称为AI行业的"iPhone时刻"。它带来了一种全新的模型架构，名为Transformer，彻底改变了AI处理语言的方式。

Transformer的核心创新叫做注意力机制（Attention Mechanism）。

原理并不复杂。处理一句话里的某个词时，注意力机制让AI同时看到整句话里所有的词，然后自己判断：当前这个词和哪几个词的关系最密切，应该重点参考哪一个。

这就像你读一句话，不是逐字死抠，而是抬起头来，一眼扫过去，立刻知道哪些词是关键词，哪些词是修饰语，哪些词和哪些词在互相呼应。

注意力机制带来了一个关键能力：上下文学习（In-Context Learning）。

简单来说：不需要重新训练模型，只需要给几个例子，AI就能学会一项新任务。

举个例子。你想让AI判断一段话是正面的还是负面的情绪。传统做法是先收集大量标注数据，再训练一个专门的分类模型。而现在，你只需要给AI看几个例子：

"今天加薪了！"是正面的
"这篇报告写得太烂了"是负面的
"项目终于上线了"是正面的

然后问它"老板今天夸我了"是什么情绪？AI立刻就能判断出来。整个过程没有重新训练，零成本，几秒钟搞定。

这种"见招拆招"的能力，是Transformer带来的最大突破。

大语言模型是怎样炼成的

有了注意力机制打底，大语言模型的训练才成为可能。但"有了一个好架构"和"炼成一个真正好用的模型"之间，还隔着漫长的工程过程。

大语言模型的训练分为三个阶段。

第一阶段：预训练（包罗万象）

预训练的目标，是让模型"认识世界"。

训练方式说起来很直接：给大模型一段话，盖住后面的内容，让它预测被盖住的是什么词。一开始，模型预测得完全不对，但随着训练的推进，它逐渐学会了语法规则、事实知识、逻辑推理，甚至一些基本的常识。

这个过程需要三样东西：海量数据、巨大算力、漫长时间。

以GPT-5 Ultra为例，公开资料显示它使用了超过15万亿个Token的训练数据，参数规模达到万亿级别，需要消耗数万块高端GPU，耗时数月。预训练烧掉的钱，通常以亿美元计算。

预训练给模型带来了海量的知识储备。但光有知识还不够，模型像一个读遍天下书的学者，却不知道怎么和人聊天。这就是第二个阶段要解决的问题。

第二阶段：微调——学会对话

微调的核心思路，是通过高质量的问答样本来调整模型的行为。

训练数据长这样："问：如何写一封正式的工作邮件？答：开头要称呼对方，说明来意，正文要条理清晰，结尾要表示感谢和期待回复。"

模型通过这些例子学会理解问题、组织回答、给出有用的信息。再也不是照本宣科，而是有来有往的对话感。

因为知识已经在预训练阶段装进去了，微调的成本比预训练低得多。但微调的质量直接决定了模型"好不好用"。一个微调得好的模型，回答专业问题条理清晰；微调得差的模型，回答问题东拉西扯，不知所云。

第三阶段：强化学习（对齐人类偏好）

微调后的模型能正常对话了，但回答质量参差不齐。有人喜欢严谨专业的回答，有人喜欢轻松活泼的交流。强化学习的任务，就是把模型的行为调到符合人类预期的方向。

具体做法很有意思：让大模型针对同一个问题生成多个回答，由人工给这些回答打分排序。模型根据打分反馈不断调整，一轮又一轮，直到它的回答越来越符合"好答案"的标准。

经过这种训练，Claude变得更保守严谨，遇到不确定的问题倾向于说"这个我不清楚"；ChatGPT变得更健谈，愿意尝试回答各种问题，即便答案可能不够完美。

涌现能力：规模出奇迹

在不断训练的过程中，研究人员发现了一个有趣的现象。

当模型大到某个临界点时，某些能力会突然出现，在此之前完全检测不到。

最典型的例子是思维链推理（Chain-of-Thought），即让AI一步步拆解问题再给出答案。这种能力在小模型上几乎不存在，参数规模一旦超过临界点，就会像被点亮一样涌现出来。

GPT-3有1750亿参数，GPT-5 Ultra参数规模达到万亿级别。两者的能力差距不是线性的，而是跳跃式的，不是一个比一个强一点，而是一个能做的事，另一个根本做不了。

这种"量变引起质变"的现象，被研究人员称

理解这一点，对我们理解大语言模型很重要：模型的能力不是均匀提升的，而是在某个规模门槛突然解锁的。这也是为什么，大模型的竞争本质上是算力和数据的竞争，规模决定能力。

它真的"懂"了吗

大语言模型已经能写文章、分析数据、帮你做决策，但一个根本问题始终悬而未决：它真的"理解"语言了吗？

严格来说，大语言模型的本质是"预测下一个词的概率分布"，而不是"检索正确答案"。它知道什么样的句子听起来像真话，但它并不知道哪些是真话、哪些是编造的。这种现象，业界叫做幻觉（Hallucination）。

一个经典的测试是：问AI"鲁迅和周树人是不是同一个人"，它答对的概率很高；但问"周作人是鲁迅的什么人"，它就开始编故事了。编得有模有样，普通人根本分辨不出来。

这不是AI在撒谎，它只是不知道自己在胡说八道。

这个局限很重要。理解了这一点，就知道AI是一个"很会说话、但不一定说真话"的工具，而不是一个全知全能的百科全书。

用它来处理需要高准确性的任务时，一定要给它足够的信息参考，要求它标注不确定的答案，或者在关键决策前交叉验证多个模型的结果。

大语言模型的意义，不仅在于它能做很多事，更在于它证明了"通用"这条路是走得通的。一个模型可以学会写作、编程、翻译、分析，不需要为每件事单独训练一个AI。

这种通用性，是AI真正从"工具"走向"助手"的开始。

posted @ 2026-06-22 08:00 岳小哥AI 阅读(114) 评论(0) 收藏举报

刷新页面返回顶部

hawk2026