大模型榜单周报(2025/12/20)
1. 本周概览
本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。
2. 重点关注事件
- OpenAI推出了其新一代图像模型 GPT Image 1.5,这一代模型具备更强的指令遵循,更精准的图像编辑,也能较好的保留细节,生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
- Google本周发布了一系列新产品,包括高速、低成本模型 Gemini 3 Flash(该模型基于上个月发布的 Gemini 3,并被设为 Gemini 应用和搜索 AI 模式中的默认模型,目前在智能/成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构),进一步巩固了其在AI领域的领先地位。
- 阿里通义万相 2.6 上线,成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
- 字节Seed本周也发布多项产品,推出了豆包视频生成模型Seedance 1.5 Pro(该模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架,它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信)和通用 Agent 模型 Seed1.8(具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求)。
3. 榜单变化
模型调用量排名变化
- Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1
- GPT-OSS-120B 排名上升了 1 名到第 4
- DeepSeek V3.2 重回榜单前 10,位列第 8 名
公司市占率变化
- Google 保持第 1 位置
- OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位;Anthropic、DeepSeek 紧跟 xAI 之后
- xAI 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%
- OpenAI 份额上升了 2.9%(14.8% → 17.7%)
编程调用量排名变化
- Grok Code Fast 1 保持第 1 位置
- GPT-5.2 跃升至第 2 位
- Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
- MiniMax M2 排名保持第 5
- Devstral 2 2512 排名由第 9 上升了 2 名
大语言模型(Text Arena)排名变化
- gemini-3-flash 新晋榜单第 3 名
- gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
- gpt-5.2-high 和 gpt-5.2 分别排名 15、17位
编程能力榜单(WebDev Arena)排名变化
- gemini-3-flash 新晋榜单第 5 名
- gemini-3-flash 的 thinking-minimal 版本排名榜单第 12
编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
- GPT-5.2 新晋榜单第 1 位
- GPT-5.1 排名第 6 位
图像编辑能力榜单(Image Edit Arena)排名变化
- chatgpt-image-latest (20251216)新晋榜单第 1 名
- gpt-image-1.5 新晋榜单第 3 位,超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
- reve-v1.1 新晋榜单第 8 名
文生图榜单(Text-to-Image Arena)排名变化
- gpt-image-1.5 超过 nano banana pro,新晋榜单首位
- flux-2-max 排名仅次于二者,新晋榜单第 3 名
图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
- GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
- FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
- GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
- FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
理科能力榜单(LLM Stats GPQA)排名变化
- Gemini 3 Flash 新晋榜单第 4 名,得分 90.4%
前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
- GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
- Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位
多模态基准测试榜单(HLE)排名变化
- GPT-5.2 新晋榜单第 3 名
GAIA 榜单排名变化
- Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首
4. OpenRouter排行榜
| 测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型调用量 | Grok Code Fast 1 | Gemini 2.5 Flash | Claude Sonnet 4.5 |
| 编程模型调用量 | Grok Code Fast 1 | GPT-5.2 | Claude Sonnet 4.5 |
| 公司市占率 | OpenAI | xAI |
各公司按不同能力领域排名汇总
| 测评类型 | 领先公司 |
|---|---|
| 大语言模型 Text Arena | Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱 |
| 编程能力 LMArena | Anthropic、OpenAI、Google |
| 编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代码工程任务能力 SWE-benchLite | (基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前) |
| 图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Reve |
| 文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯、字节 |
| 图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、Black Forest Labs、字节、Pruna AI |
| 文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节 |
| GPQA 榜单 | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath 榜单 | OpenAI、Google、月之暗面、Anthropic、xAI |
| Humanity's Last Exam 榜单 | Google、OpenAI、Anthropic |
📌 关注我,第一时间掌握更多AI前沿资讯!


浙公网安备 33010602011771号