GKLBB

当你经历了暴风雨,你也就成为了暴风雨

导航

重要大语言模型(LLM)发展时间线

 


2017: 奠基之年

  • 2017年12月 - Transformer (Google)

    • 标志:论文《Attention Is All You Need》发表。
      意义:所有现代大语言模型的核心架构。它引入了“自注意力机制”(Self-Attention),完全摒弃了之前的循环神经网络(RNN),使得模型能够更高效地并行处理序列数据,为训练超大模型奠定了基础。


2018: 预训练范式兴起

  • 2018年6月 - GPT-1 (OpenAI)

    • 标志:Generative Pre-trained Transformer 的缩写。

    • 意义:首个展示“生成式预训练+微调”范式的模型。它仅使用Transformer的解码器部分,通过无监督预训练学习语言规律,再针对下游任务进行有监督微调,取得了显著效果。

  • 2018年10月 - BERT (Google)

    • 标志:Bidirectional Encoder Representations from Transformers。

    • 意义:首个深度双向理解的模型。它使用Transformer的编码器部分,通过“掩码语言模型”(MLM)任务同时利用上下文信息进行预训练,在多项理解型任务上碾压之前的记录。它与GPT展现了不同的技术路径(编码器 vs 解码器)。


2019: 规模扩大

  • 2019年2月 - GPT-2 (OpenAI)

    • 参数:15亿参数。

    • 意义:展示了扩大模型规模带来的惊人零样本(Zero-shot)学习能力。因其“过于强大”而担心被滥用,OpenAI采用了分阶段发布的策略,引发了关于AI安全与开放的重大讨论。


2020: 突破与启示

  • 2020年5月 - GPT-3 (OpenAI)

    • 参数:1750亿参数。

    • 意义:真正引爆行业的模型。其论文《Language Models are Few-Shot Learners》展示了超大规模模型无需微调,仅通过少量示例(Few-shot)或指令就能完成复杂任务的上下文学习(In-Context Learning) 能力。它证明了“缩放定律”(Scaling Law)的有效性,并通过API开放,让世界感受到了AGI的潜力。


2021-2022: 群雄并起与优化

  • 2021年 - LaMDA (Google)

    • 重点:专为对话应用设计,追求对话的安全性、质量和趣味性。

  • 2021年10月 - Gopher (DeepMind)

    • 参数:2800亿参数。

    • 重点:DeepMind加入战局,大规模探索模型规模扩展。

  • 2022年3月 - PaLM (Google)

    • 参数:5400亿参数。

    • 重点:在多个任务上展示了当时最先进的性能,尤其擅长推理和代码任务。

  • 2022年4月 - Chinchilla (DeepMind)

    • 重点:重要的研究转折点。其论文证明,与其一味扩大参数,同等计算预算下,用更多数据训练较小模型(如700亿参数)效果更好。这改变了“更大就一定更好”的观念,开始关注数据质量与参数的平衡。

  • 2022年 - OPT (Meta)

    • 重点:Meta发布了与GPT-3规模相当(175B)的开源模型,旨在促进学术界的开放研究。


2023: 开源革命与多模态元年

  • 2023年2月 - LLaMA (Meta)

    • 参数:70B, 13B, 7B等。

    • 意义:引爆开源AI生态的革命性模型。它不是最大的,但通过“用更多数据训练更小模型”的设计理念,实现了极高的性能。其权重的泄露催生了无数微调、优化和衍生模型(如Alpaca, Vicuna),极大地降低了LLM的门槛。

  • 2023年3月 - GPT-4 (OpenAI)

    • 意义:首个公认的“巨头”多模态模型。它不仅是更强大的文本模型,还能理解图像输入(但当时仅以文本输出)。它在各项考试和专业任务上的表现接近人类水平,设立了新的行业标杆。

  • 2023年7月 - Llama 2 (Meta)

    • 意义:首个由科技巨头推出的可免费商用的开源模型(特定许可下)。它包含了从7B到70B的多个版本以及一个专门的聊天模型,直接挑战闭源模型,推动了开源LLM在工业界的应用。

  • 2023年 - Claude 2 (Anthropic)

    • 重点:由前OpenAI员工创立的Anthropic公司发布,以其更长的上下文窗口(100K token)和强烈的安全、对齐(Alignment)理念而闻名。


2024至今: 激烈竞争与Scaling持续

  • 2024年2月 - Gemini 1.5 (Google)

    • 重点:推出了超长上下文窗口(高达100万token) 的版本,并能处理视频、音频等多种模态,技术上有重大创新。

  • 2024年4月 - Claude 3 (Anthropic)

    • 重点:在多项基准测试中宣称全面超越GPT-4,成为OpenAI的最强竞争对手,尤其在长上下文和复杂推理方面表现出色。

  • 2024年5月 - GPT-4o (OpenAI)

    • 重点:“o”代表“omni”(全能)。首个真正意义上的原生多模态模型,所有模态(文本、音频、视觉)都通过同一个神经网络处理,实现了极快的端到端响应速度(尤其是实时语音交互),体验震撼。

  • 2024年 - 开源模型的持续爆发

    • Mistral (Mistral AI)、Mixtral (MoE架构)、Qwen (阿里)、DeepSeek (深度求索) 等模型持续推动着开源模型的性能边界,并在垂直领域和特定优化(如量化)上快速发展。


总结时间线表

 
时间模型名称发布机构核心意义与贡献
2017.12 Transformer Google 奠基之作,引入自注意力机制,成为所有LLM的基石
2018.06 GPT-1 OpenAI 提出“生成式预训练+微调”范式
2018.10 BERT Google 引入双向编码器结构,大幅提升理解任务性能
2019.02 GPT-2 OpenAI 展示大规模模型的零样本能力,引发安全讨论
2020.05 GPT-3 OpenAI 证明缩放定律,引领上下文学习(In-Context Learning)风潮
2022.04 Chinchilla DeepMind 提出数据与参数规模同样重要,改变训练理念
2023.02 LLaMA Meta 引爆开源生态,推动LLM民主化
2023.03 GPT-4 OpenAI 设立多模态模型新标杆,性能全面升级
2023.07 Llama 2 Meta 首个巨头推出的可商用开源模型
2024.05 GPT-4o OpenAI 原生多模态端到端模型,实现实时、自然的跨模态交互
持续中 Claude 3, Gemini 1.5, 等 Anthropic, Google 激烈竞争推动技术边界(长上下文、安全、多模态)

这个发展历程体现了从架构创新 -> 规模扩大 -> 范式验证 -> 生态开源 -> 多模态融合的清晰技术演进路径。

posted on 2025-09-10 17:01  GKLBB  阅读(197)  评论(0)    收藏  举报