会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Big-Yellow-J
博客园
首页
新随笔
联系
订阅
管理
2025年1月29日
深度学习基础理论————混合专家模型(MoE)/KV-cache
摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈
阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J
阅读(1129)
评论(0)
推荐(0)
公告
levels of contents