11.19

DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域,基于教育类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 表现优异,分别取得了 88.5、75.9 和 59.1 的高分,超越了所有其他开源模型,并在性能上接近封闭模型如 GPT-4o 和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一领域大幅缩小了开源模型与封闭模型之间的差距。

其次,在事实性知识测试中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 两个基准上领先于其他开源模型。在英文事实知识(SimpleQA)测试中虽稍逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)中表现更强。

posted @ 2025-01-01 22:31  SDGVSBGDRH  阅读(64)  评论(0)    收藏  举报