摘要:
本文地址:https://wanger-sjtu.github.io/TurboSparse/ 关于llama稀疏性的观察 llama原始模型的FFN计算过程为: \[f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down} \]clas 阅读全文
本文地址:https://wanger-sjtu.github.io/TurboSparse/ 关于llama稀疏性的观察 llama原始模型的FFN计算过程为: \[f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down} \]clas 阅读全文
posted @ 2024-08-10 22:52
青铜时代的猪
阅读(391)
评论(0)
推荐(0)

浙公网安备 33010602011771号