摘要: 一、与DeepSeek-v2比较 1. 架构和参数(Architecture and Parameters) DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。 DeepSeek-V2也使用了MoE框架,但是 阅读全文
posted @ 2025-01-30 12:26 AAA建材王师傅 阅读(286) 评论(0) 推荐(0)