BERT词向量参数量计算_BASE

Embedding(词向量参数)计算:

  • 前置条件
    • 词汇量大小
      • vocab_size=30522
    • 文本输入最长大小
      • max_position_embeddings=512
    • 句子类型(标记上下文)
      • BERT用了2个句子,为0和1
      • token_type_embeddings=2
    • 隐藏层
      • hidden_size=768
  • 词向量参数
    • Token embedding=vocab_size*hidden_size=30522 * 768
  • 位置向量参数
    • Position_embeddings=max_position_embeddings*hidden_size=512 * 768
  • 句子类型参数
    • token_type_embeddings*hidden_size=2 * 768

综上:Embedding总参数=(30522+512+2)*768 = 23,835,648 = 22.7MB


参考论文

  • 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
  • 《Attention is all you need》
posted @ 2025-03-06 19:46  HaibaraYuki  阅读(54)  评论(0)    收藏  举报