重要大语言模型(LLM)发展时间线
2017: 奠基之年
-
2017年12月 - Transformer (Google)
-
标志:论文《Attention Is All You Need》发表。
意义:所有现代大语言模型的核心架构。它引入了“自注意力机制”(Self-Attention),完全摒弃了之前的循环神经网络(RNN),使得模型能够更高效地并行处理序列数据,为训练超大模型奠定了基础。
-
2018: 预训练范式兴起
-
2018年6月 - GPT-1 (OpenAI)
-
标志:Generative Pre-trained Transformer 的缩写。
-
意义:首个展示“生成式预训练+微调”范式的模型。它仅使用Transformer的解码器部分,通过无监督预训练学习语言规律,再针对下游任务进行有监督微调,取得了显著效果。
-
-
2018年10月 - BERT (Google)
-
标志:Bidirectional Encoder Representations from Transformers。
-
意义:首个深度双向理解的模型。它使用Transformer的编码器部分,通过“掩码语言模型”(MLM)任务同时利用上下文信息进行预训练,在多项理解型任务上碾压之前的记录。它与GPT展现了不同的技术路径(编码器 vs 解码器)。
-
2019: 规模扩大
-
2019年2月 - GPT-2 (OpenAI)
-
参数:15亿参数。
-
意义:展示了扩大模型规模带来的惊人零样本(Zero-shot)学习能力。因其“过于强大”而担心被滥用,OpenAI采用了分阶段发布的策略,引发了关于AI安全与开放的重大讨论。
-
2020: 突破与启示
-
2020年5月 - GPT-3 (OpenAI)
-
参数:1750亿参数。
-
意义:真正引爆行业的模型。其论文《Language Models are Few-Shot Learners》展示了超大规模模型无需微调,仅通过少量示例(Few-shot)或指令就能完成复杂任务的上下文学习(In-Context Learning) 能力。它证明了“缩放定律”(Scaling Law)的有效性,并通过API开放,让世界感受到了AGI的潜力。
-
2021-2022: 群雄并起与优化
-
2021年 - LaMDA (Google)
-
重点:专为对话应用设计,追求对话的安全性、质量和趣味性。
-
-
2021年10月 - Gopher (DeepMind)
-
参数:2800亿参数。
-
重点:DeepMind加入战局,大规模探索模型规模扩展。
-
-
2022年3月 - PaLM (Google)
-
参数:5400亿参数。
-
重点:在多个任务上展示了当时最先进的性能,尤其擅长推理和代码任务。
-
-
2022年4月 - Chinchilla (DeepMind)
-
重点:重要的研究转折点。其论文证明,与其一味扩大参数,同等计算预算下,用更多数据训练较小模型(如700亿参数)效果更好。这改变了“更大就一定更好”的观念,开始关注数据质量与参数的平衡。
-
-
2022年 - OPT (Meta)
-
重点:Meta发布了与GPT-3规模相当(175B)的开源模型,旨在促进学术界的开放研究。
-
2023: 开源革命与多模态元年
-
2023年2月 - LLaMA (Meta)
-
参数:70B, 13B, 7B等。
-
意义:引爆开源AI生态的革命性模型。它不是最大的,但通过“用更多数据训练更小模型”的设计理念,实现了极高的性能。其权重的泄露催生了无数微调、优化和衍生模型(如Alpaca, Vicuna),极大地降低了LLM的门槛。
-
-
2023年3月 - GPT-4 (OpenAI)
-
意义:首个公认的“巨头”多模态模型。它不仅是更强大的文本模型,还能理解图像输入(但当时仅以文本输出)。它在各项考试和专业任务上的表现接近人类水平,设立了新的行业标杆。
-
-
2023年7月 - Llama 2 (Meta)
-
意义:首个由科技巨头推出的可免费商用的开源模型(特定许可下)。它包含了从7B到70B的多个版本以及一个专门的聊天模型,直接挑战闭源模型,推动了开源LLM在工业界的应用。
-
-
2023年 - Claude 2 (Anthropic)
-
重点:由前OpenAI员工创立的Anthropic公司发布,以其更长的上下文窗口(100K token)和强烈的安全、对齐(Alignment)理念而闻名。
-
2024至今: 激烈竞争与Scaling持续
-
2024年2月 - Gemini 1.5 (Google)
-
重点:推出了超长上下文窗口(高达100万token) 的版本,并能处理视频、音频等多种模态,技术上有重大创新。
-
-
2024年4月 - Claude 3 (Anthropic)
-
重点:在多项基准测试中宣称全面超越GPT-4,成为OpenAI的最强竞争对手,尤其在长上下文和复杂推理方面表现出色。
-
-
2024年5月 - GPT-4o (OpenAI)
-
重点:“o”代表“omni”(全能)。首个真正意义上的原生多模态模型,所有模态(文本、音频、视觉)都通过同一个神经网络处理,实现了极快的端到端响应速度(尤其是实时语音交互),体验震撼。
-
-
2024年 - 开源模型的持续爆发
-
Mistral (Mistral AI)、Mixtral (MoE架构)、Qwen (阿里)、DeepSeek (深度求索) 等模型持续推动着开源模型的性能边界,并在垂直领域和特定优化(如量化)上快速发展。
-
总结时间线表
| 时间 | 模型名称 | 发布机构 | 核心意义与贡献 |
|---|---|---|---|
| 2017.12 | Transformer | 奠基之作,引入自注意力机制,成为所有LLM的基石 | |
| 2018.06 | GPT-1 | OpenAI | 提出“生成式预训练+微调”范式 |
| 2018.10 | BERT | 引入双向编码器结构,大幅提升理解任务性能 | |
| 2019.02 | GPT-2 | OpenAI | 展示大规模模型的零样本能力,引发安全讨论 |
| 2020.05 | GPT-3 | OpenAI | 证明缩放定律,引领上下文学习(In-Context Learning)风潮 |
| 2022.04 | Chinchilla | DeepMind | 提出数据与参数规模同样重要,改变训练理念 |
| 2023.02 | LLaMA | Meta | 引爆开源生态,推动LLM民主化 |
| 2023.03 | GPT-4 | OpenAI | 设立多模态模型新标杆,性能全面升级 |
| 2023.07 | Llama 2 | Meta | 首个巨头推出的可商用开源模型 |
| 2024.05 | GPT-4o | OpenAI | 原生多模态端到端模型,实现实时、自然的跨模态交互 |
| 持续中 | Claude 3, Gemini 1.5, 等 | Anthropic, Google | 激烈竞争推动技术边界(长上下文、安全、多模态) |
这个发展历程体现了从架构创新 -> 规模扩大 -> 范式验证 -> 生态开源 -> 多模态融合的清晰技术演进路径。
浙公网安备 33010602011771号