大型语言模型(LLM)分类与特性全解析 - 教程

大型语言模型(LLM)分类与特性全解析

一、技术架构分类

1.1 Transformer核心架构变体

基于Transformer的注意力机制设计,LLM首要分为三大主流架构:

架构类型核心模块注意力机制典型模型核心优势适用场景
Encoder-Only仅使用编码器双向注意力BERT、RoBERTa、ALBERT、DeBERTa上下文语义理解能力强,适合文本分类、命名实体识别情感分析、问答架构、文本检索
Decoder-Only仅使用解码器单向自回归注意力GPT系列、LLaMA系列、Qwen、Mistral长文本生成能力突出,零样本学习能力强内容创作、对话系统、代码生成
Encoder-Decoder编码器+解码器双向编码+单向生成T5、BART、Pegasus兼顾理解与生成,适合序列转换任务机器翻译、文本摘要、生成式问答

1.2 创新架构突破(2023-2025)

1.2.1 混合专家模型(MoE)
  • 技术原理:通过稀疏激活机制,将模型参数分散到多个"专家"子网络,仅激活与输入相关的专家(通常5-10%)
  • 代表模型
    • DeepSeek-R1(6710亿总参数,每次推理激活370亿参数)
    • Qwen3-Next(800亿总参数,激活3.7%即30亿参数)
    • Mixtral 8x7B(8个专家层,每token激活2个专家)
  • 优势:参数量扩展至万亿级同时保持推理效率,训练成本降低70%
1.2.2 多头潜在注意力(MLA)
  • 技术原理:对KV缓存进行低维压缩存储,推理时动态解压,内存占用降低70%

posted on 2025-09-28 17:38  slgkaifa  阅读(54)  评论(0)    收藏  举报

导航