11.14

就在今天，素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈，其重磅发布了一个全新的超大规模模型——DeepSeek-V3。

这个新模型拥有 6710 亿个参数，但采用了 MOE（混合专家）架构，能根据任务需求激活特定参数，每处理一个词元激活 370 亿参数，从而实现高效又准确的任务处理。

这一次 DeepSeek-V3 的发布令业界振奋，不仅因为它是开源模型，更因为测试结果显示，它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型，甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型，大大缩小了开源和闭源 AI 之间的差距。