01-AI大模型(一)--综述

1. NLP的发展脉络

1.1 文本表示方式的演进

要处理NLP问题，首先要解决文本的表示问题。虽然我们人去看文本，能够清楚明白文本中的符号表达什么含义，但是计算机只能做数学计算，需要将文本表示成计算机可以处理的形式。自然语言处理的核心是将“语言”转化为“模型可处理的向量”，其表示方式经历了如下演变：

阶段	方法	特点
第一代	One-hot	每个词表示为一个高维稀疏向量，维度等于词表大小，不能表达词之间的关系
第二代	Word Embedding（如 Word2Vec, GloVe）	将词映射为低维稠密向量，捕捉语义关系，如“king - man + woman ≈ queen”
第三代	上下文动态表示（如ELMo、BERT）	向量由上下文决定，解决词义多样问题
第四代	自回归表示（GPT 系列）	强调从左到右的生成学习，更适合语言建模和对话任务

1.2 NLP常见任务及演化趋势

　　　NLP中有各种各样的任务，比如分类（Classification）（如情感分析、新闻分类），问答（QA）（如阅读理解），实体命名识别（NER）（提取出人名、地名等实体）等。对于这些不同的任务，最早的做法是根据每类任务定制不同的模型，输入预训练好的embedding，然后利用特定任务的数据集对模型进行训练，如下图所示。这里存在的问题就是，不是每个特定任务都有大量的标签数据可供训练，对于那些数据集非常小的任务，恐怕就难以得到一个理想的模型。

1.3 借鉴CV领域的“预训练 + 微调”范式

我们看一下图像领域是如何解决这个问题的。图像分类是计算机视觉中最基本的任务，当我要解决一个小数据集的图像分类任务时，该怎么做？CV领域已经有了一套成熟的解决方案。我会用一个通用的网络模型，比如Vgg，ResNet或者GoogleNet，在ImageNet上做预训练（pre-training）。ImageNet有1400万张有标注的图片，包含1000个类别，这样的数据规模足以训练出一个规模庞大的模型。在训练过程中，模型会不断的学习如何提取特征，底层的CNN网络结构会提取边缘，角，点等通用特征，模型越往上走，提取的特征也越抽象，与特定的任务更加相关。当完成预训练之后，根据我自己的分类任务，调整最上层的网络结构，然后在小数据集里对模型进行训练。在训练时，可以固定住底层的模型参数只训练顶层的参数，也可以对整个模型进行训练，这个过程叫做微调（fine-tuning），最终得到一个可用的模型。总结一下，整个过程包括两步，拿一个通用模型在ImageNet上做预训练（pre-training），然后针对特定任务进行微调（fine-tuning），完美解决了特定任务数据不足的问题。还有一个好处是，对于各种各样的任务都不再需要从头开始训练网络，可以直接拿预训练好的结果进行微调，既减少了训练计算量的负担，也减少了人工标注数据的负担。

早期NLP模型，通常针对单一任务设计；后来逐步效仿CV的“通用预训练 + 任务微调”策略，代表性模型包括：

BERT：通过 Masked Language Model（MLM）进行语言理解预训练；
GPT：通过自回归语言模型进行生成式预训练。

参考：https://zhuanlan.zhihu.com/p/53099098

2.BERT vs ChatGPT

2.1 它们与 Transformer 的关系

BERT 和 ChatGPT 都是 基于 Transformer 的改造模型
Transformer 是 通用架构，可用于编码（理解）或解码（生成）
它们各自基于 Transformer 的某一部分发展：
- BERT：只用 Transformer 的 Encoder
- ChatGPT：只用 Transformer 的 Decoder

2.2 BERT的发展路径：理解为主的“预训练+微调”典范

初代 BERT（2018, Google）

结构基础：基于 Transformer 的 Encoder-only 架构；
预训练目标：
- Masked Language Modeling（MLM）：随机遮盖输入中的部分词，预测被遮盖词；
- Next Sentence Prediction（NSP）：判断两个句子是否相邻；
创新之处：
- 双向上下文建模：相比传统左到右的语言模型，BERT能同时利用左右语境；
- 统一模型架构：一个模型可适配多种NLP任务，如分类、QA、NER等；
- 预训练-微调范式确立：先在大语料上训练，再在下游任务上微调。

后续改进版本

版本	核心改进	发布者
RoBERTa	移除NSP、更长训练时间、更大Batch、更大数据（更强）	Facebook
ALBERT	参数共享+矩阵分解，降低参数量	Google
DistilBERT	蒸馏技术压缩模型，提升速度	HuggingFace
SpanBERT	预测连续span而非单词，适合抽取任务	Facebook
BERT-wwm	Whole Word Masking，更自然的遮盖策略	哈工大+百度

影响与地位

BERT 奠定了“通用语言理解模型”的范式；
广泛用于问答系统、文本分类、命名实体识别、法律/医疗文本理解等；
是 Google 搜索、微软 Office 等系统的核心组件。

2.3 ChatGPT（GPT）的发展路径：从语言模型到对话智能体

2.3.1 GPT 初代（GPT-1, 2018, OpenAI）

结构基础：基于 Transformer 的 Decoder-only 架构；
训练目标：自回归语言建模（Auto-Regressive Language Modeling）
特点：
- 只能基于前文生成下一个词；
- 表现优于传统 RNN、LSTM 语言模型。

2.3.2 GPT-2（2019）

规模升级：从 GPT-1 的 1.17 亿参数 → GPT-2 的 15 亿参数；
性能突破：
- 能进行文本生成、翻译、摘要、对话等任务；
- 展现“少样本学习能力”：只需少量样例即可泛化新任务；
争议与影响：因“可能被滥用”一度未公开完整模型。

2.3.3 GPT-3（2020）

参数量爆炸性增长：1750 亿参数；
Few-shot / Zero-shot 能力增强：
- 利用“提示词工程（prompt engineering）”实现任务泛化；
- 不再需要微调，只通过提示就能解决多种任务；
缺点：缺乏人类价值对齐，容易生成虚假、毒性内容。

2.3.4 ChatGPT（2022）

基于GPT-3.5（InstructGPT）
引入**强化学习+人类反馈（RLHF）**机制，优化对话表现：
- 收集人类偏好评分，训练奖励模型；
- 使用 Proximal Policy Optimization（PPO）强化训练；
变成“能对话的语言模型”，具备以下特性：
- 多轮对话；
- 能回答指令、写代码、写文案；
- 更安全、更守规矩；
用户量爆发式增长，ChatGPT 成为AI走入大众的重要标志。

2.3.5 GPT-4 / GPT-4o（2023~2024）

GPT-版本	关键特性
GPT-4	更强推理、多模态输入（图像+文本）
GPT-4o（Omni）	原生多模态（文本+图像+音频），速度更快，成本更低

2.4 BERT vs ChatGPT：对比总结与演化趋势

对比项	BERT	ChatGPT（GPT系列）
架构方向	Transformer Encoder	Transformer Decoder
任务偏向	语言理解（分类、QA）	语言生成（对话、写作）
训练目标	MLM + NSP	自回归预测 + RLHF
输入处理	同时利用前后文	只使用前文预测
下游适配	微调为主	Prompt + 少样本泛化
典型代表	BERT、RoBERTa、ALBERT	GPT-2/3、InstructGPT、ChatGPT、GPT-4(o)
用户接口	API接入或任务式	对话式/问答式，ToC为主

posted @ 2025-05-07 11:09 赵家小伙儿阅读(62) 评论(0) 收藏举报

刷新页面返回顶部