大模型训练资源计算
大模型和小模型的差异
| 比较项 | 小模型 | 大模型 |
|---|---|---|
| 算力需求 | 单卡训练 | 显卡集群训练,成本高 |
| 算法 | 参数在百万级别(M) | 参数在十亿界别(B) |
| 训练数据量 | ||
| 功能适用性 | 单一,只能处理单个场景下的业务 |
大模型训练时间估算
训练时间t = (8 * T * P) / (n * E * x)
其中:
- 训练时间t表示总个计算过程的耗时,单位是 s 秒。
- 8 是打模型每个参数更新一次需要的训练量,一个参数更新一次,正向传传播需要计算2次,反向传播需要计算4次,优化器需要计算2次。
- T 是训练数据总的token量,单位为个。
- P 指的是目标模型的参数总量(尺寸),例如7B、175B。单位为个,1B = 10^9个
- n 是训练可用的显卡数量。
- E 是单张显卡的算力,单位是flops。一般显卡的单位是Tflops,1 Tflpops = 10^12 flops。
- x 是显卡集群的平均计算效率,一般取45% .
Transformer 结构模型分类
按编解码类型可以分为以下几类
- encoder-only。预训练通常是完形填空,擅长处理文本分类、实体识别、关键信息提取等。代表模型是Bert
- decoder-only。预训练通常是预测下一个词。适合做文本生成任务。代表模型是GPT。
- encoder-decoder。适合做机器翻译。代表模型是T5。
混合专家模型(MoE)
推理时只激活部分参数,从而得到更快的推理速度。
与稠密模型相比,预训练成本更低。
在实际部署时,仍然需要大量的显存,因为模型所有的参数都需要加载。
著名的deepseek就是采用MoE架构。
华为对大模型应用场景的分类
L0:基础大模型,预训练后的大模型。
L1:行业大模型,经过微调后的大模型。
L2:场景大模型,用于具体场景的模型。
大模型带来的能力
涌现
- 语境学习能力(learning in context): 通过提示词理解用户的提问背景和意图
- 指令遵循(instruction followling):可以根据指令做出相应的回答,为模型微调提供了基础。
- 思维链(chain of thought):一步一步思考。只能应用在一定的领域,例如数学。
同质化
上游模型的核心特征会被下游模型继承或感染。

浙公网安备 33010602011771号