第一阶段:史前时代与理论基础 (2017年之前)
该阶段的核心是技术储备,尤其是Transformer架构 的出现。
技术基础:
循环神经网络(RNN)和长短期记忆网络(LSTM):在Transformer之前,处理序列数据(如文本)的主流模型。但它们存在梯度消失/爆炸障碍,难以处理长距离依赖。
编码器-解码器架构:在机器翻译中取得成功,为后来的模型结构献出了范本。
注意力机制:2014年提出,允许模型在处理某个词时“关注”输入序列中所有其他词的重要性,大大提升了模型性能。但最初的注意力是与RNN结合使用的。
关键里程碑:Transformer的诞生 (2017)
Google的论文《Attention Is All You Need》横空出世。
核心贡献:完全摒弃了RNN和CNN,仅依靠自注意力机制来构建模型。这使得模型可以高度并行化训练,极大地提升了训练效率,并且能更好地捕捉全局依赖关系。
意义真正的“开山之作”。就是:这篇论文为所有后续的大语言模型奠定了最核心的架构基础,
第二阶段:预训练-微调范式的确立与“大”模型的诞生 (2018-2020)
这个阶段,研究者们发现,先用海量素材训练一个庞大的基础模型,然后再用特定领域的数据进行微调,可以取得非常好的效果。这就是“预训练-微调”范式。
开创者:GPT 和 BERT (2018)
GPT-1 (OpenAI, 2018):
架构:仅使用Transformer的解码器部分。解码器是自回归的,非常适合文本生成任务(根据上文预测下一个词)。
意义:证明了通用预训练模型的有效性,通过微调可以在多种任务上取得好成绩。
BERT (Google, 2018):
架构:仅应用Transformer的编码器部分。采用“掩码语言模型”进行训练,可以同时看到上下文信息。
意义:在11项NLP任务上刷新了记录,引发了工业界和学术界的巨大轰动,彻底证明了“预训练-微调”范式的威力。
规模的竞赛:模型参数急剧膨胀
GPT-2 (2019):参数15亿。OpenAI因其“可能被滥用”的担忧而分阶段发布,引发了广泛讨论。它展示了零样本学习的潜力,即不微调直接完成任务。
GPT-3 (2020):参数高达1750亿。这是一个划时代的模型。
核心思想:提出了 “预训练 + 提示学习”的新范式。其关键发现是上下文学习能力:只需在提示中给出几个例子(Few-shot Learning),模型就能理解任务并给出答案,无需更新模型参数。
意义:证明了规模效应的惊人力量——当模型大到一定程度时,会涌现出小模型不具备的能力。大模型成为新的基础平台。
同时期的其他要紧模型:
T5 (Google):将所有的NLP任务都统一成“文本到文本”的格式。
RoBERTa, ALBERT等:对BERT架构进行了优化和改进。
第三阶段:从“理解”到“生成与对话”,AI走向普及 (2021-2022)
这一阶段的重点是让大模型变得更有用、更易用、更安全,核心突破是指令微调和人类反馈强化学习。
指令微调:用大量涵盖“指令-期望回复”格式的数据集对预训练好的基础模型进行微调,让模型学会遵循人类的指令。
人类反馈强化学习:通过人类对模型生成结果的排序和评价来进一步微调模型,使其输出更符合人类的价值观和偏好。
关键里程碑:InstructGPT 和 ChatGPT (2022)
InstructGPT (2022):是GPT-3的指令微调版本,采用了RLHF工艺。其回复更安全、更相关、更符合指令要求。
ChatGPT (2022年11月):基于InstructGPT类似的技术,但针对对话交互进行了优化。它的发布引发了全球性的AI热潮,让普通人第一次直观感受到了大模型的强大能力。
第四阶段:规模化、多模态化与生态竞争 (2023年至今)
ChatGPT之后,行业进入了百花齐放、激烈竞争的阶段。
闭源与开源之路:
闭源代表:
GPT-4 (2023):更强更大,拥护多模态输入(图像和文本),推理能力、可靠性和安全性进一步提升。
Google Gemini:Google的应对之作,原生多模态设计,在多项基准测试中试图超越GPT-4。
开源代表:
LLaMA (Meta):发布了一系列从70亿到700亿参数的基础模型,虽然不开源但开放权重供研究使用,催生了繁荣的开源生态。
ChatGLM (智谱AI/清华)、Baichuan (百川智能)、Qwen (通义千问,阿里)等:中国公司和机构推出的强大模型,形成了中文大模型生态。
技术趋势:
多模态典型代表。就是:模型不再只处理文本,而是能够同时理解图像、音频、视频等。GPT-4V, Gemini
智能体:大模型作为“大脑”,允许调用工具(搜索引擎、计算器、API)、进行规划、执行复杂任务。
缩放定律的继续探索:模型参数还在增长,但重点转向了用更高效的方法(如混合专家模型MoE)来构建更大模型。
垂直化与小型化:出现针对特定领域(医疗、法律、编程)优化的模型,以及行在手机等边缘设备上运行的轻量级模型。
总结:演变的核心脉络
| 阶段 | 时间 | 核心突破 | 代表模型 | 范式 |
|---|---|---|---|---|
| 理论基础 | ~2017 | 注意力机制,Transformer架构 | Transformer | 新架构诞生 |
| 预训练范式 | 2018-2020 | 预训练-微调,规模效应显现 | BERT, GPT-3 | Pre-train + Fine-tune |
| 对齐与对话 | 2021-2022 | 指令微调,人类反馈强化学习 | InstructGPT,ChatGPT | Pre-train + Prompt |
| 多模态与生态 | 2023至今 | 多模态能力,AI智能体,开源爆发 | GPT-4, Gemini, LLaMA | AI as Agent |
大模型的演变远未结束,未来将朝着更高效、更可靠、更具理解力和推理能力的方向发展,并更深地融入人类社会的各个方面。
开启新对话
浙公网安备 33010602011771号