摘要: 原作:阿尔贝托·罗梅罗 与 o1 相比,R1 的表现如何? DeepSeek 在六个相关基准(如 GPQA Diamond 和 SWE-bench Verified)以及其他替代测试(如 Codeforces 和 AIME)上对 R1 和 o1 进行了一对一比较。列表中遗漏了 ARC-AGI 和 F 阅读全文
posted @ 2025-02-04 13:39 白鹿原老张 阅读(697) 评论(0) 推荐(0)