2025 年 12月 13 日随笔档案 - deephub

2025年12月13日

DeepSeek-R1 与 OpenAI o3 的启示：Test-Time Compute 技术不再迷信参数堆叠

摘要：过去2年，整个行业仿佛陷入了一场参数竞赛，每一次模型发布的叙事如出一辙：“我们堆了更多 GPU，用了更多数据，现在的模型是 1750 亿参数，而不是之前的 1000 亿。” 这种惯性思维让人误以为智能只能在训练阶段“烘焙”定型，一旦模型封装发布，能力天花板就被焊死了。但到了 2025 年，这个假设阅读全文

posted @ 2025-12-13 22:50 deephub 阅读(2) 评论(0) 推荐(0)

deephub

overfit深度学习

公告