为什么llama用RMSnorm而不是layernorm

来源:Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm-CSDN博客

 

posted on 2024-02-02 11:30  nlp如此迷人  阅读(288)  评论(0)    收藏  举报

导航