大模型训练资源计算

大模型和小模型的差异

比较项	小模型	大模型
算力需求	单卡训练	显卡集群训练，成本高
算法	参数在百万级别(M)	参数在十亿界别(B)
训练数据量
功能适用性	单一，只能处理单个场景下的业务

大模型训练时间估算

训练时间t = (8 * T * P) / (n * E * x)
其中：

训练时间t表示总个计算过程的耗时，单位是 s 秒。

8 是打模型每个参数更新一次需要的训练量，一个参数更新一次，正向传传播需要计算2次，反向传播需要计算4次，优化器需要计算2次。

T 是训练数据总的token量，单位为个。

P 指的是目标模型的参数总量(尺寸)，例如7B、175B。单位为个，1B = 10^9个

n 是训练可用的显卡数量。

E 是单张显卡的算力，单位是flops。一般显卡的单位是Tflops，1 Tflpops = 10^12 flops。

x 是显卡集群的平均计算效率，一般取45% .

Transformer 结构模型分类

按编解码类型可以分为以下几类

encoder-only。预训练通常是完形填空，擅长处理文本分类、实体识别、关键信息提取等。代表模型是Bert
decoder-only。预训练通常是预测下一个词。适合做文本生成任务。代表模型是GPT。
encoder-decoder。适合做机器翻译。代表模型是T5。

混合专家模型(MoE)

推理时只激活部分参数，从而得到更快的推理速度。
与稠密模型相比，预训练成本更低。
在实际部署时，仍然需要大量的显存，因为模型所有的参数都需要加载。
著名的deepseek就是采用MoE架构。

华为对大模型应用场景的分类

L0：基础大模型，预训练后的大模型。
L1：行业大模型，经过微调后的大模型。
L2：场景大模型，用于具体场景的模型。

大模型带来的能力

涌现

语境学习能力(learning in context): 通过提示词理解用户的提问背景和意图
指令遵循(instruction followling)：可以根据指令做出相应的回答，为模型微调提供了基础。
思维链(chain of thought)：一步一步思考。只能应用在一定的领域，例如数学。

同质化

上游模型的核心特征会被下游模型继承或感染。

posted @ 2025-06-01 11:17 jeasonzhou 阅读(232) 评论(0) 收藏举报

刷新页面返回顶部

Loading

jeasonzhou