以下为你清晰梳理 BERT 与 GPT - 1 的模型规模参数:
| BERT 版本 | 层数(Transformer 层) | 隐藏层维度 | 注意力头数 | 参数量 |
| BERT - Base |
12 |
768 |
12 |
约 1.1 亿 |
| BERT - Large |
24 |
1024 |
16 |
约 3.4 亿 |
GPT - 1 是 OpenAI 早期的生成式模型,结构为 12 层 Transformer 解码器,参数如下:
- 层数:12 层
- 隐藏层维度:768
- 注意力头数:12
- 参数量:约 1.17 亿
| 维度 | BERT - Base(理解型) | GPT - 1(生成型) |
| 参数量 |
~1.1 亿 |
~1.17 亿 |
| 核心结构 |
Transformer 双向编码 |
Transformer 单向解码 |
| 能力侧重 |
语义理解(分类、问答) |
文本生成(续写、创作) |
BERT - Base 和 GPT - 1 参数量同一量级(亿级),但 BERT 是双向理解模型(适合文本分类、问答),GPT - 1 是单向生成模型(适合文本续写),设计目标差异大~