2025 年 3月 11 日随笔档案 - deephub

2025年3月11日

摘要：近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型，但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3在AIME 2024评测中达到了39.2%的Pass@1准确率，在SWE-bench Ver 阅读全文

posted @ 2025-03-11 11:30 deephub 阅读(47) 评论(0) 推荐(0)

deephub

overfit深度学习

公告