bert一些思考
摘要:bert结构 首先是embdding lookup,【batch * seq】-->[batch, seq, hidden] 然后是加个mask embdding和type embdding和postion embdding作为最终 然后到transformers,transformers是24层的
阅读全文
posted @ 2020-04-17 17:28
posted @ 2020-04-17 17:28
posted @ 2020-04-17 14:27