BERT词向量参数量计算_BASE
Embedding(词向量参数)计算:
- 前置条件
- 词汇量大小
- vocab_size=30522
 
- 文本输入最长大小
- max_position_embeddings=512
 
- 句子类型(标记上下文)
- BERT用了2个句子,为0和1
- token_type_embeddings=2
 
- 隐藏层
- hidden_size=768
 
 
- 词汇量大小
- 词向量参数
- Token embedding=vocab_size*hidden_size=30522 * 768
 
- 位置向量参数
- Position_embeddings=max_position_embeddings*hidden_size=512 * 768
 
- 句子类型参数
- token_type_embeddings*hidden_size=2 * 768
 
综上:Embedding总参数=(30522+512+2)*768 = 23,835,648 = 22.7MB
参考论文
- 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
- 《Attention is all you need》

 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号