[GenAI] Intro LLM发展史

LLM,Large Language Model,大语言模型。

🤔思考: LLM 和 AI 这个词是完全等价的?或者说 AI 就是 LLM 么?

LLM 仅仅是 AI 的一个分支。

任何能够使机器模仿人类行为的技术,都可以称之为人工智能技术。

人工智能下面有很多的分支,其中一个就是机器学习。

人类不直接给出决策,而是通过一些算法,让机器从示例中学习,然后机器来做出决策。

深度学习(Deep Learning)又是机器学习下面的一个分支。受到人脑神经系统的启发。

image-20250522101533902
  • CNN:卷积神经网络,主要处理图像
  • RNN:循环神经网络,其中里面有一种解决方案,LSTM 是 RNN 的其中一种解决方案
  • GAN:生成对抗网络
  • Transformer:GPT系列、DeepSeek

LLM发展史

AI 技术两大核心应用方向:

  1. 计算机视觉:Computer Vision,CV 让计算机能够看懂图片
  2. 自然语言处理:Natural Language Processing,NLP,让计算读懂、理解、写出人类的语言

早期 AI 技术研究基本上聚焦于 CV,NLP 属于这几年后来居上。

关于语言

🤔思考:何为语言?信息又如何传播?

语言:声音为媒介

口头传播的缺点:信息不容易积累

原始人:结绳、刻契、图画---> 图形符号 ----> 文字

文字:承载信息

image-20250522101435700

语言是信息的载体。口头话语和书面文字都是语言的重要组成部分。有了语言,就有了信息沟通的基础。

除了语言这个信息载体之外,我们需要在信息的通道中为语言 编码解码

image-20250522102328361

同理,计算机也是不能够直接理解人类的自然语言的,可以理解为两个不同的物种,无法直接进行交流。

  • 人类:自然语言
  • 计算机:0101010 二进制

早期是人类向计算机妥协,学习计算机的二进制交流方式,然后和计算机进行交流。

研究方向:如何让计算机向人类妥协,人类不再使用二进制,而是使用我们擅长的自然语言和计算机进行交流

  • 汇编语言和计算机进行交流
  • 高级语言:C、C++、Java、JS 和计算机进行交流
  • 自然语言和计算机进行交流

所以现在所出现的 AI 编码(Agent),其实就是实现的自然语言和计算机交流。

这个就是 NLP 的核心任务。NLP 是人类通过自然语言和计算机进行交流的一个桥梁。

NLP演进史

NLP 发展粗略的分为如下 4 个阶段:

  1. 起源
  2. 基于规则
  3. 基于统计
  4. 深度学习和大数据驱动

1. 起源

阿兰・图灵在 20 世界 50 年代提出的图灵测试。(模仿游戏)

图灵测试的基本思想是,如果一个计算机程序能在自然语言对话中表现得像一个人,那么我们可以说它具有智能。

NLP 问题是 AI 理论诞生之初就亟须解决的一个问题。

2. 基于规则

人们尝试通过基于语法语义规则的方法来解决 NLP 问题。这也是我们人类在学习一门新的语言的时候的主要思路。

image-20250522103549164

一门语言的规则就非常非常的多,而且十分复杂,这还只是一门语言,如果想要覆盖世界上所有的语言,难上加难。

而且,语言是一门随时变化的艺术。

3. 基于统计

1970 年以后,以弗雷德里克・贾里尼克为首的 IBM 科学家们采用了 基于统计 的方法来解决语音识别的问题,终于把一个基于规则的问题转换成了一个数学问题,最终使 NLP 任务的准确率有了质的提升。

一句话解释什么是语言模型,那就是:

一种捕捉自然语言中词汇、短语和句子的概率分布的统计模型。

简单来说,语言模型的目的是估计给定文本序列出现的概率,从而帮助理解语言的结构和生成新的文本。

该阶段一些具有代表性的模型和方法:

模型 / 方法 简介
Bag-of-Words(BoW) 最早期的文本表示方法之一,将文本看作词的集合,忽略语序,仅统计词频或词是否出现。广泛用于文本分类和信息检索。
N-Gram 模型 最具代表性的统计语言模型之一,利用前 N−1 个词预测下一个词,体现了语言的局部依赖性。
Hidden Markov Model(HMM) 一种生成式模型,广泛用于语音识别、词性标注等任务,结合状态转移概率和观测概率进行序列建模。
Maximum Entropy Model(最大熵模型) 判别式模型,可灵活建模特征对输出的影响,常用于命名实体识别、文本分类等任务。
IBM 模型(1~5) IBM 提出的统计机器翻译模型,专注于词对齐、翻译概率和句子结构建模,对早期翻译系统影响深远。
BLEU 指标(虽然不是模型,但重要) 一种用于评估机器翻译结果的指标,衡量候选翻译与参考翻译的 n-gram 重合度,是机器翻译研究的重要标准。

4. 深度学习和大数据驱动

统计方法被广泛运用后,NLP 技术有了质的飞跃。后面,又出现了深度学习和大数据,这两个技术逐渐取代了传统的统计方式。

这一阶段可以大致分为两个浪潮:

  • 第一波(2013~2018):深度学习技术开始应用于 NLP,词向量(word embedding)等方法显著提升了模型的表示能力;
  • 第二波(2018~至今):以 Transformer 为核心架构的大规模预训练模型兴起,依托海量语料数据,实现了更强的语言理解与生成能力。

该阶段一些著名的语言模型如下表所示:

模型 简介
Word2Vec(2013) Google 提出,通过上下文学习词向量,标志着词嵌入(embedding)时代的开始。
GloVe(2014) Stanford 提出,基于共现矩阵的全局词嵌入方法。
ELMo(2018) 使用双向 LSTM,能根据上下文动态生成词表示,是上下文词向量的开端。
BERT(2018) Google 提出,使用 Transformer 编码器,预训练-微调范式奠定现代 NLP 基础。
GPT 系列(2018–至今) OpenAI 提出,基于 Transformer 解码器,擅长自然语言生成,GPT-3、GPT-4 代表当今 LLM 顶尖水平。
T5(2019) Google 提出,统一 NLP 任务为“文本到文本”的框架。
RoBERTa、XLNet、ERNIE 各大公司在 BERT 基础上优化推出的改进版本。
ChatGPT(2022)GPT-4(2023) 标志着 LLM 进入应用时代,表现出对话、编程、写作等通用能力。

整个 NLP 模型发展阶段与代表模型如下:

阶段 时间 方法 / 模型 类型 主要用途 是否考虑词序 / 语义
规则阶段 1950s–1970s 语法规则、人工模板 人工构建规则系统 机器翻译、问答系统 ✅ 语法结构,❌语义
统计阶段 1970s–2010s Bag-of-Words (BoW) 特征表示方法 文本分类、情感分析
TF-IDF 加权特征表示 文本检索、关键词提取
N-Gram 统计语言模型 语言建模、机器翻译 ✅ 局部上下文,❌长依赖
HMM 概率生成模型 词性标注、语音识别
IBM 模型(1~5) 对齐翻译模型 统计机器翻译 ✅ 局部
深度学习阶段 2013–2018 Word2Vec 分布式词向量 构建语义空间、分类器输入 ❌(静态嵌入)
GloVe 基于矩阵的词向量 同上
ELMo 上下文词向量(LSTM) 命名实体识别、问答等 ✅ 局部语境
大语言模型阶段 2018–至今 BERT 编码器(Transformer) 预训练+微调,适用于多数 NLP 任务 ✅ 深层语义
GPT 系列(GPT-2/3/4) 解码器(Transformer) 文本生成、对话系统 ✅ 强上下文与推理能力
T5 编码器-解码器结构 多任务文本生成
ChatGPT 应用层 LLM 对话、创作、问答 ✅ 多轮对话上下文

语言模型

1. N-Gram模型

N-Gram模型诞生于 1950s–1960s,最早由香农(Claude Shannon)在信息论中提出,用于语言的概率建模,香农在 1951 年的论文中提出,使用 1-gram、2-gram 等方法估计英文文本的概率。前面的 N 是一个数字,表示你每次要看几个词,例如:

  • 1-Gram(Unigram):只看一个词。
  • 2-Gram(Bigram):看前一个词。
  • 3-Gram(Trigram):看前两个词。
  • 以此类推…

该模型基于马尔可夫假设,什么是马尔可夫假设呢?

一个词的出现概率,只依赖于它前面的 N−1 个词,而不是整个句子历史。

你妈妈在厨房:帮我从冰箱里面拿....

你的脑子会自然补出“鸡蛋/牛奶/苹果”

根据“拿”这个词来预测的下一个词

工作原理

以 Bigram 模型(2-gram)为例

假设我们有这样一个“语料库”,我们用这些数据来训练模型:

“我 爱 吃 苹果”
“我 爱 吃 香蕉”
“我 喜欢 吃 苹果”

Bigram 模型会根据一个词统计下一个词出现的概率,这里我们可以数一数所有词对:

前一个词 下一个词 次数
2 次
喜欢 1 次
2 次
喜欢 1 次
苹果 2 次
香蕉 1 次

比如:

  • 我后面出现“爱”的概率是 2/3,出现“喜欢”的概率是 1/3。
  • 吃后面出现“苹果”的概率是 2/3,出现“香蕉”的概率是 1/3。

所以:

如果你看到“我 爱 吃”,那下一个词大概率是“苹果”!

N-Gram模型缺陷

N-Gram模型是最早的语言模型原型,是整个统计语言建模的起点。不过 N-Gram 模型虽然是语言建模的奠基石之一,但它也存在不少关键缺陷,这些缺陷正是后来神经网络语言模型诞生的动因。

主要缺陷如下表:

缺陷点 说明
1. 语境短视(上下文长度有限) N-Gram 只看前 N−1 个词,无法理解长距离依赖。例如在句子“我昨天见到一个朋友,他说他喜欢编程”中,“他”和“喜欢编程”之间相隔很远,Bigram / Trigram 很难建模这种关系。
2. 数据稀疏严重(Data Sparsity) 语言中有大量的词组合从未在训练语料中出现过,即使它们是合理的,也会被模型认为概率为 0。这个问题在 N 值越大时越严重。
3. 无法泛化 N-Gram 只能“记住”见过的词组合,对没见过的组合无能为力。比如语料中没有 “我 喜欢 吃 西瓜”,模型无法判断它是否合理。
4. 不具备语义理解能力 N-Gram 模型只基于词频,不理解词义。它无法判断 “喜欢” 和 “热爱” 的相似性,也不能区分“我打了他”和“他打了我”之间的语义差异。
5. 参数维度膨胀 当 N 增大时,可能出现的 N-Gram 组合数呈指数级增长,需要的内存和存储量也随之暴增,训练成本高。
6. 不适合生成自然语言 基于固定窗口预测的方式,容易生成重复、呆板、逻辑不通的句子,不适合生成自然、连贯的文本(尤其是对话或文章生成)。
7. 不考虑词性、句法结构 它无法理解词的角色(如名词、动词),也不会分析句子的语法结构,这在许多高级 NLP 任务中是致命的。

2. 词袋模型

词袋模型(Bag-of-Words)是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次。

工作原理

词袋模型的核心思想是把:文本表示成一个“词频向量”,不看词的顺序、句法结构,只关注词是否出现出现的次数

举个例子:假设有三句话作为语料库(Corpus)

句子1:我喜欢吃苹果  
句子2:我不喜欢吃香蕉  
句子3:她喜欢吃葡萄

第 1 步分词:

["我", "喜欢", "吃", "苹果"]
["我", "不", "喜欢", "吃", "香蕉"]
["她", "喜欢", "吃", "葡萄"]

第 2 步构建词表:

词表 = ["我", "喜欢", "吃", "苹果", "不", "香蕉", "她", "葡萄"]

这个词表确定了向量的“维度”,共 8 个词,所以向量长度就是 8。

第 3 步构建词频向量

词汇位置 喜欢 苹果 香蕉 葡萄
句子1 向量 1 1 1 1 0 0 0 0
句子2 向量 1 1 1 0 1 1 0 0
句子3 向量 0 1 1 0 0 0 1 1

这个表就是 BoW 特征向量化后的结果,每句话变成一个“向量”,可以用于计算机处理。

[1, 1, 1, 1, 0, 0, 0, 0]
[1, 1, 1, 0, 1, 1, 0, 0]
[1, 1, 1, 0, 0, 0, 0, 0]

BoW 相对于 N-Gram 的改进:

问题 N-Gram 的缺陷 BoW 的解决
维度膨胀严重 N-Gram 组合数非常多(特别是 Trigram 以上) BoW 只统计词,不考虑组合,向量维度更小
数据稀疏严重 N-Gram 中很多词组组合没出现 BoW 用词频统计,不会因未出现的组合而归 0,更稳定
上下文建模复杂 N-Gram 有上下文,但建模代价大 BoW 完全不建上下文,适合计算效率优先的场景
语言通用性差 N-Gram 通常用于语言建模、生成 BoW 更适合分类、聚类、检索等任务,不是用来“生成文本”的模型

词袋模型更擅长的任务是:

  • 文本分类

  • 文本相似度分析

  • 信息检索 / 文档排序

词袋模型的缺陷

虽然 BoW 在早期 NLP 中广泛使用,但它也有明显不足:

BoW 局限 表现在哪?
只看词有没有,不看上下文 “下次”、“还会来”、“满意”这些词在训练集中可能根本没出现,所以它无法学习
词序被忽略 “我打了他”和“他打了我”在 BoW 中是一样的,无法影响分类
不能理解新词或组合 “真的很满意”这个表达在训练集中可能完全没出现过
没语义泛化能力 模型不知道“满意”≈“不错”、“愉快”等词汇的同义性,“满意”和“不错”被看作两个完全不同的词
posted @ 2025-07-05 18:20  Zhentiw  阅读(38)  评论(0)    收藏  举报