主流编程模型评测 - 实践

去年11月,美国知名VC机构Menlo Ventures 发布了一份生成式AI发展现状的报告。报告指出,当前 AI 在企业中的五大高频应用场景包括代码生成、聊天机器人、搜索、数据转换和会议纪要,其中代码生成的占比远高于其他场景。

2025年,继月之暗面团队发布Kimi K2后,阿里通义大模型团队开源了Qwen3-Coder,刷新了AI编程SOTA。7月28日,智谱AI推出新一代旗舰大模型GLM-4.5,成为首款具备SOTA水平的原生智能体大模型,在代码生成能力上shixianle由此可见,vibe coding 正逐渐成为行业发展的一大趋势。

因此,大家使用胜算云「AI群聊」平台,对主流的几款编程大模型进行了一次较为详细的评测。参与评测的模型有:Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro和OpenAI o4-mini-high。

任务一:生成一个打工人时钟的HTML页面

Prompt:帮我生成一个打工人时钟的 html 页面。

先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:在本任务中,除o4外,其他模型普遍在基础时钟能力之外增加了动态语录和日期显示。其中,Gemini以及几款国产大模型还加入了“下班倒计时”功能。从页面美观度来看,国产模型整体表现令人惊喜,界面设计简洁且富有质感。内容方面,Qwen和Gemini供应的语录更具趣味性和个性化。相比之下,Claude的结果则出现了一些逻辑上的瑕疵——在傍晚时间段竟然提示「夜深了,记得早点休息!」。

任务二:生成一个带动画效果的天气预报卡

Prompt:创建一个带动画效果的天气预报卡,能根据不同天气(晴天、雨天、多云)显示不同的动画。

先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:在生成带动画效果的天气预报卡任务中,除o4和Kimi外,其余模型均实现了基本的动态交互功能。值得一提的是,Kimi虽在设计思路中考虑了交互性,但最终生成的代码并未实现真正的动态效果。

在扩展内容方面,Claude、Qwen和GLM表现优异,除基本的天气显示外,还补充了动态天气图标、湿度、风速和能见度等信息。不过,这几款模型也存在各自的小问题:GLM的「多云」图标无法正常显示,Claude的「晴天」图标图层位置略有错乱。相比之下,Qwen和Gemini在天气图标的呈现上更为稳定,视觉体验也更佳。

从美观度角度来看,Qwen和GLM的天气卡片在视觉层次上更清晰,背景与卡片之间的区分度较高,图层排列也更为合理。而在整体排版与样式处理上,Claude和Kimi的表现优于o4和Gemini,视觉协调性更好。

任务三:为餐厅设计主页

Prompt:为一家餐厅设计主页,用于展示菜单和介绍。需要有整齐的导航栏、对比清晰的配色、简洁的账号介绍、清晰的菜单展示区,以及一个完整的页脚。

先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:在本任务中,所有模型生成的代码基本都较好地满足了需求,整体完成度较高。其中,Kimi和Qwen在页面结构设计上为菜品图片预留了展示空间。除Kimi之外,其他模型普遍对菜单内容进行了分类。

从作用分区和设计完整性来看,Gemini的表现更好,页面结构清晰、逻辑合理,整体完成度较高,兼顾了实用性与美观性。

任务四:贪吃蛇游戏

Prompt:创建一个红白机风格的贪吃蛇游戏。

o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。就是先看结果,以下分别

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:在本任务中,除GLM外,其余模型均成功生成了可运行的简易贪吃蛇小游戏。GLM即使提供了可运行的代码,但存在逻辑问题,游戏启动后陷入无限循环,无法正式开始。

在功能性方面,Kimi和Claude表现较好,均添加了「暂停」功能。Kimi和Qwen引入了网格背景,o4、Claude和Qwen对蛇的头部和尾部进行了明确区分。在游戏机制方面,Qwen建立的是无边界的“无尽模式”,蛇可以从一边穿越到另一边,增加了玩法的延展性。而其他模型则采用传统的边界限制,一旦触碰边缘即结束游戏,逻辑更为严谨。

任务五:人机对战五子棋游戏

Prompt:「人机对战」五子棋游戏界面,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和熊猫),背景带有轻微渐变和星星点缀,界面边缘圆润,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风,html完成。

先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:在本任务中,所有模型均成功生成了一个基本可运行的人机对战五子棋游戏。不过,从实际体验来看,AI下棋策略普遍较为简单,缺乏应对能力,整体表现显得有些呆。

细节功能方面,o4和Gemini加入了「执棋方」提示,Claude、Kimi和Gemini均在游戏结束时弹出提示框。在扩展功能上,Qwen增加了悔棋选项,GLM则添加了「游戏帮助」能力,有助于新手快速上手。

任务六:超级玛丽游戏

Prompt:做一个超级玛丽游戏,使用Pygame实现。

先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论:本次任务中,所有模型均成功实现了超级玛丽游戏的基础功能,包括角色的容易移动和跳跃。除o4外,其他模型均增加了「怪兽」元素。Claude、Kimi、Qwen和GLM更进一步,加入了金币收集效果。从视觉表现来看,GLM的表现更出色,不仅具备基础的人物、怪兽和金币元素,还额外在场景中增加了云朵等细节。

总结

本次评测基于胜算云「AI群聊」平台,对6款主流编程模型(Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、OpenAI o4-mini-high)在六项典型编程任务中的表现进行了对比,涵盖前端开发、游戏设计等领域。结论如下:

代码生成能力整体提升,国产模型表现亮眼

  • 基础功能实现上,除GLM-4.5在贪吃蛇任务中出现逻辑问题外,其他模型均能生成完成度较高的代码。

  • 国产模型(Qwen、GLM、Kimi)在视觉设计(如天气卡片、餐厅主页)和用户体验(动态语录、倒计时)上显著优于国际模型。

游戏创建:功能达标,策略性待加强

  • 贪吃蛇、五子棋任务中,模型普遍实现基础玩法,但AI策略简单(如五子棋下棋逻辑呆板)。

  • 交互亮点:Kimi/Claude的暂停功能、Qwen的悔棋选项,在一定程度上提升了可玩性。

选型建议

  • 全能型:Gemini 2.5 Pro、Qwen3-Coder-Plus。

  • 设计优先:Qwen3-Coder-Plus、GLM-4.5。

  • 游戏研发:Claude Sonnet 4、Kimi K2。

posted on 2025-08-06 09:40  ljbguanli  阅读(15)  评论(0)    收藏  举报