BERT词向量参数量计算_BASE

Embedding(词向量参数)计算:

前置条件
- 词汇量大小
  - vocab_size=30522
- 文本输入最长大小
  - max_position_embeddings=512
- 句子类型(标记上下文)
  - BERT用了2个句子，为0和1
  - token_type_embeddings=2
- 隐藏层
  - hidden_size=768
词向量参数
- Token embedding=vocab_size*hidden_size=30522 * 768
位置向量参数
- Position_embeddings=max_position_embeddings*hidden_size=512 * 768
句子类型参数
- token_type_embeddings*hidden_size=2 * 768

综上:Embedding总参数=(30522+512+2)*768 = 23,835,648 = 22.7MB

参考论文

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
《Attention is all you need》

posted @ 2025-03-06 19:46 HaibaraYuki 阅读(54) 评论(0) 收藏举报

刷新页面返回顶部