会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zz-w
博客园
首页
新随笔
联系
订阅
管理
2025年1月30日
DeepSeek-V3
摘要: 一、与DeepSeek-v2比较 1. 架构和参数(Architecture and Parameters) DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架,但是
阅读全文
posted @ 2025-01-30 12:26 AAA建材王师傅
阅读(286)
评论(0)
推荐(0)
公告