打赏
摘要: 1.现状 Transformer模型目前被广泛应用,但目前存在以下几个问题: (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析 层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4 阅读全文
posted @ 2020-07-01 23:09 listenviolet 阅读(645) 评论(0) 推荐(0) 编辑