为啥Decoder-Only这条路线效果最好？

Posted on 2023-11-14 13:53 蝈蝈俊阅读(5056) 评论(0) 收藏举报

https://arxiv.org/pdf/2304.13712.pdf 这篇论文中有个现代大型语言模型（LLM）的演变树，可以看出：同一分支上的模型关系更为紧密。

图说明：

基于 Transformer 模型以非灰色显示：
- decoder-only 模型在蓝色分支，
- encoder-only 模型在粉色分支，
- encoder-decoder 模型在绿色分支。
模型在时间线上的垂直位置表示它们的发布日期。
开源模型由实心方块表示，而闭源模型由空心方块表示。
右下角的堆积条形图显示了各公司和机构的模型数量。

从时间轴上，我们可以看到：

2021年前当 OpenAI 决定在 GPT 系列中采用 Decoder-Only 架构时，他们实际上是在逆流而上。在那个时代，Encoder-Decoder 架构，如在 BERT 和 Transformer 模型中见到的，是技术巨头和学术界的宠儿，而 Decoder-Only 架构则被视为一条不被主流认可的小径。

然而，正是这种冒险的选择催生了一个突破性的产品——ChatGPT。它不仅挑战了当时的技术共识，还引领了一个全新的对话生成和文本续写的潮流。ChatGPT 展现的生成连贯、流畅和相关文本的能力，彻底颠覆了业界对 Decoder-Only 架构的看法，将其从一个被边缘化的选择转变为人工智能研究的前沿。

大语言模型常见架构

大语言模型如GPT系列（包括GPT-4）通常采用不同的架构，主要有三种：Decoder-Only、Encoder-Only、以及Encoder-Decoder。每种架构都有其独特的特点和适用场景：

Decoder-Only 方案

这就像一个讲故事的人。你给他一个开头，比如“有一次，一只小猫走失了”，然后他会继续这个故事，讲述下去，一直到故事结束。

图：讲故事的人

Decoder-Only模型就是这样，它接收一些信息（开头），然后生成接下来的内容（故事）。

特点：擅长创造性的写作，比如写小说或自动生成文章。它更多关注于从已有的信息（开头）扩展出新的内容。

OpenAI 选择了Decoder-Only方案（如GPT系列），因为它对于自然语言生成特别有效。这种架构能够更好地理解和预测语言模式，尤其适合处理开放式的、生成性的任务。

Encoder-Only 方案

这就像是一个专业的书评家。他阅读和理解一本书（输入的信息），然后告诉你这本书是关于什么的，比如它的主题是爱情、冒险还是悬疑。

图：书评家

Encoder-Only模型就是专注于理解和分析输入的信息，而不是创造新的内容。

特点：擅长理解和分类信息，比如判断一段文本的情感倾向（积极还是消极）或者主题分类。

这种架构主要用于处理输入数据，专注于理解和编码信息，而不是生成新的文本。

Encoder-Only模型在理解和分类任务中更为有效，例如文本分类、情感分析等。

Encoder-Decoder 方案（如BERT、T5）

这就像是翻译家。他先听你说一段话（比如英文），理解它，然后把它翻译成另一种语言（比如中文）。

图：翻译家

Encoder-Decoder模型就是这样，先理解输入的信息（Encoder部分），然后基于这个理解生成新的、相关的内容（Decoder部分）。

特点：擅长处理需要理解输入然后生成相关输出的任务，比如翻译或问答系统。

这种模型在需要深入理解输入内容并生成相关响应的任务中表现良好，例如机器翻译、问答系统等。

从上面的介绍，我们可以看到，三种架构都有其适用场景，那为啥OpenAI选择的Decoder-Only大获成功呢？因为：

理解自然语言是通往通用人工智能（AGI）的关键路径

语言是人类智能的一个核心表现。通过有效地处理和生成自然语言，人工智能系统可以更好地理解人类的意图、情感和知识，这是通向AGI的重要一步。

想象一下，语言就像是一座桥。这座桥连接着人类的思维世界与外部世界。当人们交流时，他们实际上是在这座桥上相遇，通过语言的桥梁来分享思想、情感和知识。

现在，设想人工智能（AI）像是一位初到陌生城市的旅者。最开始，这位旅者可能只懂得一些基本的词汇和短语，类似于旅游手册里的内容。随着时间的推移，如果他开始学习当地的语言，了解当地的文化和习俗，他就能更深入地理解这座城市，甚至能够与当地人进行深层次的交流。在这个过程中，这位旅者不仅学会了如何使用语言，还学会了理解当地人的想法、情感和行为方式。

把这个比喻应用到AI上，刚开始，AI就像是只懂得基础语言的旅者。但随着它学习和理解更多的自然语言，它就能更好地理解人类的意图、情感和复杂思想。这种深入的理解能力是通往通用人工智能（AGI）的桥梁，因为它不仅帮助AI理解语言本身，还帮助它理解使用这种语言的人类社会和文化。就像一个逐渐融入新城市的旅者，AI通过学习语言，能够逐渐理解并参与人类的世界。

图：语言就像是一座桥

较少的计算量

OpenAI首席科学家Ilya Sutskever有句话:

“语言是人类知识的压缩”

对比视觉和声音，语言的压缩比要高很多。

想象一下，你在收拾行李准备旅行。你有三种不同的物品：衣服（代表文字），书籍（代表图像），和音乐CD（代表声音）。你的目标是尽可能多地带走信息和娱乐，但行李箱的空间有限。

在这个比喻中，衣服是最容易打包的，因为它们可以压缩，占用的空间最小，而且你可以通过几件衣服就能表达很多风格和信息。这就像语言一样，简洁而信息密集。相比之下，书籍和CD则占用更多空间，因为它们包含的信息更分散、更多样。

在AI的世界里，处理文本（衣服）相对于处理图像（书籍）和声音（CD）来说，需要的计算资源要少得多。文本能以更简洁的形式包含大量信息，就像衣服可以压缩来节省空间一样。而处理图像和声音则像是在行李箱里塞满书籍和CD，需要更多的空间（在AI中即计算资源）。

图：在AI的世界里，处理文本（衣服）相对于处理图像（书籍）和声音（CD）来说，需要的计算资源要少得多。

这就是为什么在AI的发展中，我们首先看到的是擅长处理文本的AI（比如GPT系列），它们像是精通打包行李的专家，能够高效地处理和理解大量信息。而多模态AI（同时处理文本、图像和声音的AI）则是后来出现的，因为它们需要处理更多样化、更占用资源的数据类型，就像一个需要在有限空间内安排各种不同物品的旅行者。

与Encoder-Decoder比，较少的计算资源：

在语言模型的世界里，这就像是使用一个高效的工具来直接完成任务，而不是在多个工具之间切换，这通常意味着需要较少的资源来达到优异的性能。

比如：直达列车与需要换乘的旅程：

Decoder-Only模型就像是直达列车，从起点直接到达目的地，没有中途停靠或换乘，这种一步到位的方式灵活且高效。
Encoder-Decoder模型就像是需要在不同站点换乘的旅程，首先乘坐一列列车到达中转站（Encoder过程），然后换乘另一列列车以到达最终目的地（Decoder过程）。这种分步骤的方法在处理复杂任务时能提供更深入的处理，但通常需要更多时间和资源。

图：旅客在换乘

与Encoder-Only比，理解比分类更重要

想象一下，如果把Decoder-Only模型（如GPT系列）比作专精于甜点制作的大厨，那么Encoder-Only模型就如同擅长烹饪主菜的厨师。

甜点大师（Decoder-Only） 以创意和多样化的甜品见长，他们的工作方法直接、专注于细节与创新的展现。这恰似Decoder-Only模型在文本生成或对话系统等任务上的专注，展现出对特定任务的高效学习和适应能力。

而主菜厨师（Encoder-Only） 则擅长处理和准备复杂的主菜。尽管他们的专业性不减，但通常需要更多的步骤和准备。Encoder-Only模型虽然在理解和处理输入数据上表现出色，但在创造新内容的能力上，可能不及Decoder-Only模型那般直接和高效。

对于追求通用人工智能（AGI）的终极目标而言，能够迅速适应新的甜品风格或配方的甜点大厨（Decoder-Only）显得更为关键。他们以快速反馈和简洁路径赢得成功，正如Decoder-Only模型在面对变化和新挑战时的灵活性和效率。

图：甜点大厨和主菜大厨

总结

ChatGPT刚开始出来的时候，很多人说它只不过是在预测下一个字符，就是个概率统计而已，只不过是“鹦鹉学舌”，因此觉得它没有人类的智能。这个判断现在看来是非常肤浅的。

然而，随着时间的推移，这种看似简单的预测机制不仅证明了自身的价值，而且还揭示了一条通向更高级别人工智能的路径：

通过精确地掌握和生成语言，我们不仅能深入理解人类的思维和文化特质，还能利用这种能力来缩小人工智能与人类思维之间的鸿沟。

正是这种深刻的理解和模仿人类交流方式，使得ChatGPT不仅仅是一款产品，而是朝着真正的通用人工智能（AGI）迈出的关键一步。

刷新页面返回顶部

蝈蝈俊的技术心得

导航

公告