Loading

大模型训练资源计算

大模型和小模型的差异

比较项 小模型 大模型
算力需求 单卡训练 显卡集群训练,成本高
算法 参数在百万级别(M) 参数在十亿界别(B)
训练数据量
功能适用性 单一,只能处理单个场景下的业务

大模型训练时间估算

训练时间t = (8 * T * P) / (n * E * x)
其中:

  • 训练时间t表示总个计算过程的耗时,单位是 s 秒。
  • 8 是打模型每个参数更新一次需要的训练量,一个参数更新一次,正向传传播需要计算2次,反向传播需要计算4次,优化器需要计算2次。
  • T 是训练数据总的token量,单位为个。
  • P 指的是目标模型的参数总量(尺寸),例如7B、175B。单位为个,1B = 10^9个
  • n 是训练可用的显卡数量。
  • E 是单张显卡的算力,单位是flops。一般显卡的单位是Tflops,1 Tflpops = 10^12 flops。
  • x 是显卡集群的平均计算效率,一般取45% .

Transformer 结构模型分类

按编解码类型可以分为以下几类

  1. encoder-only。预训练通常是完形填空,擅长处理文本分类、实体识别、关键信息提取等。代表模型是Bert
  2. decoder-only。预训练通常是预测下一个词。适合做文本生成任务。代表模型是GPT。
  3. encoder-decoder。适合做机器翻译。代表模型是T5。

混合专家模型(MoE)

推理时只激活部分参数,从而得到更快的推理速度。
与稠密模型相比,预训练成本更低。
在实际部署时,仍然需要大量的显存,因为模型所有的参数都需要加载。
著名的deepseek就是采用MoE架构。

华为对大模型应用场景的分类

L0:基础大模型,预训练后的大模型。
L1:行业大模型,经过微调后的大模型。
L2:场景大模型,用于具体场景的模型。

大模型带来的能力

涌现

  1. 语境学习能力(learning in context): 通过提示词理解用户的提问背景和意图
  2. 指令遵循(instruction followling):可以根据指令做出相应的回答,为模型微调提供了基础。
  3. 思维链(chain of thought):一步一步思考。只能应用在一定的领域,例如数学。

同质化

上游模型的核心特征会被下游模型继承或感染。

posted @ 2025-06-01 11:17  jeasonzhou  阅读(226)  评论(0)    收藏  举报