01-AI大模型(一)--综述

1. NLP的发展脉络

1.1 文本表示方式的演进

       要处理NLP问题,首先要解决文本的表示问题。虽然我们人去看文本,能够清楚明白文本中的符号表达什么含义,但是计算机只能做数学计算,需要将文本表示成计算机可以处理的形式。自然语言处理的核心是将“语言”转化为“模型可处理的向量”,其表示方式经历了如下演变:

阶段 方法 特点
第一代 One-hot 每个词表示为一个高维稀疏向量,维度等于词表大小,不能表达词之间的关系
第二代 Word Embedding(如 Word2Vec, GloVe) 将词映射为低维稠密向量,捕捉语义关系,如“king - man + woman ≈ queen”
第三代 上下文动态表示(如ELMo、BERT) 向量由上下文决定,解决词义多样问题
第四代 自回归表示(GPT 系列) 强调从左到右的生成学习,更适合语言建模和对话任务

1.2 NLP常见任务及演化趋势

   NLP中有各种各样的任务,比如分类(Classification)(如情感分析、新闻分类),问答(QA)(如阅读理解),实体命名识别(NER)(提取出人名、地名等实体)等。对于这些不同的任务,最早的做法是根据每类任务定制不同的模型,输入预训练好的embedding,然后利用特定任务的数据集对模型进行训练,如下图所示。这里存在的问题就是,不是每个特定任务都有大量的标签数据可供训练,对于那些数据集非常小的任务,恐怕就难以得到一个理想的模型。

  

 

1.3 借鉴CV领域的“预训练 + 微调”范式

      我们看一下图像领域是如何解决这个问题的。图像分类是计算机视觉中最基本的任务,当我要解决一个小数据集的图像分类任务时,该怎么做?CV领域已经有了一套成熟的解决方案。我会用一个通用的网络模型,比如Vgg,ResNet或者GoogleNet,在ImageNet上做预训练(pre-training)。ImageNet有1400万张有标注的图片,包含1000个类别,这样的数据规模足以训练出一个规模庞大的模型。在训练过程中,模型会不断的学习如何提取特征,底层的CNN网络结构会提取边缘,角,点等通用特征,模型越往上走,提取的特征也越抽象,与特定的任务更加相关。当完成预训练之后,根据我自己的分类任务,调整最上层的网络结构,然后在小数据集里对模型进行训练。在训练时,可以固定住底层的模型参数只训练顶层的参数,也可以对整个模型进行训练,这个过程叫做微调(fine-tuning),最终得到一个可用的模型。总结一下,整个过程包括两步,拿一个通用模型在ImageNet上做预训练(pre-training),然后针对特定任务进行微调(fine-tuning),完美解决了特定任务数据不足的问题。还有一个好处是,对于各种各样的任务都不再需要从头开始训练网络,可以直接拿预训练好的结果进行微调,既减少了训练计算量的负担,也减少了人工标注数据的负担。

早期NLP模型,通常针对单一任务设计;后来逐步效仿CV的“通用预训练 + 任务微调”策略,代表性模型包括:
  • BERT:通过 Masked Language Model(MLM)进行语言理解预训练;
  • GPT:通过自回归语言模型进行生成式预训练。
参考:https://zhuanlan.zhihu.com/p/53099098

2.BERT vs ChatGPT

2.1 它们与 Transformer 的关系

  • BERT 和 ChatGPT 都是 基于 Transformer 的改造模型
  • Transformer 是 通用架构,可用于编码(理解)或解码(生成)
  • 它们各自基于 Transformer 的某一部分发展:
    • BERT:只用 Transformer 的 Encoder
    • ChatGPT:只用 Transformer 的 Decoder

2.2 BERT的发展路径:理解为主的“预训练+微调”典范

初代 BERT(2018, Google)

  • 结构基础:基于 Transformer 的 Encoder-only 架构;
  • 预训练目标
    • Masked Language Modeling(MLM):随机遮盖输入中的部分词,预测被遮盖词;
    • Next Sentence Prediction(NSP):判断两个句子是否相邻;
  • 创新之处
    • 双向上下文建模:相比传统左到右的语言模型,BERT能同时利用左右语境;
    • 统一模型架构:一个模型可适配多种NLP任务,如分类、QA、NER等;
    • 预训练-微调范式确立:先在大语料上训练,再在下游任务上微调。

后续改进版本

 

版本 核心改进 发布者
RoBERTa 移除NSP、更长训练时间、更大Batch、更大数据(更强) Facebook
ALBERT 参数共享+矩阵分解,降低参数量 Google
DistilBERT 蒸馏技术压缩模型,提升速度 HuggingFace
SpanBERT 预测连续span而非单词,适合抽取任务 Facebook
BERT-wwm Whole Word Masking,更自然的遮盖策略 哈工大+百度

影响与地位

  • BERT 奠定了“通用语言理解模型”的范式;
  • 广泛用于问答系统、文本分类、命名实体识别、法律/医疗文本理解等;
  • 是 Google 搜索、微软 Office 等系统的核心组件。

2.3 ChatGPT(GPT)的发展路径:从语言模型到对话智能体

2.3.1 GPT 初代(GPT-1, 2018, OpenAI)

  • 结构基础:基于 Transformer 的 Decoder-only 架构;
  • 训练目标自回归语言建模(Auto-Regressive Language Modeling)
  • 特点
    • 只能基于前文生成下一个词;
    • 表现优于传统 RNN、LSTM 语言模型。

2.3.2 GPT-2(2019)

  • 规模升级:从 GPT-1 的 1.17 亿参数 → GPT-2 的 15 亿参数;
  • 性能突破
    • 能进行文本生成、翻译、摘要、对话等任务;
    • 展现“少样本学习能力”:只需少量样例即可泛化新任务;
  • 争议与影响:因“可能被滥用”一度未公开完整模型。

2.3.3 GPT-3(2020)

  • 参数量爆炸性增长:1750 亿参数;
  • Few-shot / Zero-shot 能力增强:
    • 利用“提示词工程(prompt engineering)”实现任务泛化;
    • 不再需要微调,只通过提示就能解决多种任务;
  • 缺点:缺乏人类价值对齐,容易生成虚假、毒性内容。

2.3.4 ChatGPT(2022)

  • 基于GPT-3.5(InstructGPT)
  • 引入**强化学习+人类反馈(RLHF)**机制,优化对话表现:
    • 收集人类偏好评分,训练奖励模型;
    • 使用 Proximal Policy Optimization(PPO)强化训练;
  • 变成“能对话的语言模型”,具备以下特性:
    • 多轮对话;
    • 能回答指令、写代码、写文案;
    • 更安全、更守规矩;
  • 用户量爆发式增长,ChatGPT 成为AI走入大众的重要标志。

2.3.5 GPT-4 / GPT-4o(2023~2024)

 
 
GPT-版本 关键特性
GPT-4 更强推理、多模态输入(图像+文本)
GPT-4o(Omni) 原生多模态(文本+图像+音频),速度更快,成本更低

2.4 BERT vs ChatGPT:对比总结与演化趋势

 
 
对比项 BERT ChatGPT(GPT系列)
架构方向 Transformer Encoder Transformer Decoder
任务偏向 语言理解(分类、QA) 语言生成(对话、写作)
训练目标 MLM + NSP 自回归预测 + RLHF
输入处理 同时利用前后文 只使用前文预测
下游适配 微调为主 Prompt + 少样本泛化
典型代表 BERT、RoBERTa、ALBERT GPT-2/3、InstructGPT、ChatGPT、GPT-4(o)
用户接口 API接入或任务式 对话式/问答式,ToC为主
posted @ 2025-05-07 11:09  赵家小伙儿  阅读(62)  评论(0)    收藏  举报