首先，如何评判代码能力？

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。SWE-Bench Verified 是一个用于评估软件工程能力和软件质量的标准工具，包含 500 个经过验证的样本，并取代了原始的 SWE-bench 和 SWE-bench Lite 测试集。它涵盖了多个方面，包括代码的准确性、效率和可维护性等，这对于软件行业至关重要。

下面直接排行数据：

Claude Sonnet 3.7第一，

Gemini2.5第二，

GPT4.1第三。国产DSR1第5。

不过就实际体验，Claude3.5也要好于DeepSeekR1，Claude Sonnet 3.7再强，也会降智，GPT4o什么的，编写完成网页什么的，就不用测试了，浪费时间。有空我去尝试一下Gemini2.5。

下面是我此前的测试对比：

请在公众号查看，图片过大。

地址：https://mp.weixin.qq.com/s/LBWdvMwfdp7qNrYwIaUI2w

AI写代码 Claude3.7

AI写代码 Claude3.7，可以绘制草图为svg，但是需要排队，新建一个文件夹后...排队，然后快写完了就超时了

AI写代码 Claude3.5

AI写代码 Claude3.5，图片为R1保存的，未删除，它自己使用了。

AI写代码 DeepSeekR1

AI写代码 DeepSeekR1
图片已手动替换部分，代码仿真dw程度高，但效果差，其他的代码没怎么注意。

AI写代码 DeepSeekV3

AI写代码 GPT4o

AI写代码测试词

使用工具：trae，3.7经常排队，可以画svg图片。
帮我完成一个毕业作品，模拟人工编写和模拟Dreamweaver软件的效果，页面不要太完美，具体需求要求如下：

作品要体现出我校学生拼搏向上的朝气，作品主题鲜明，创意新颖，页面结构美观。主题为：沧州文旅宣传（大运河）。

1.内容健康、充实且积极向上；内容具有观赏性、普及性、艺术性、可读性，语言文字有特点。

2.突出沧州文旅主题，全站点围绕一个主题及其周边内容进行建设。

3.设计思路清晰，明确表达设计意图。IP具有原创性和独特性，色彩协调，具有识别度、延展性等。

4.网页有较强的个人设计创意，色彩搭配鲜明，内容布局合理，整体视觉效果好。图片清晰，色彩明艳，具有创意和构思，符合规范，整体视觉效果好。

5.有一个说明文档，内容包括小组成员名字及分工，网站设计的想法，以及IP设计类的思考来源，格式.txt。

6.作品交付无错误。

7.没有空链接和错误链接，点击对应的项目可以跳转到对应的详情页面。

8.作品中所有文件均要以字母命名，包括各文件夹、网页文件、图片文件、Flash文件等等。

9.各个网页有明确主题（如首页、登陆页面等。

10.首页有导航条。

11.正确显示图片。

12.合理使用CSS样式。

13.作品页面数量6个以上。

14.作品必须自行设计、制作，不得抄袭，不得套用网上或相关网页制作软件的模板。

15.有简单的设计草图。

链接使用相对链接，实现dw软件的代码效果，网页不要太简陋，按上述要求完成。写完所有html后再编写样式，版权时间2025年，表单不需要required placeholder，除非dw软件自带有这个效果。css也要有dw的软件效果，不能使用root，*，css变量。

YunUPan’

AI写代码，到底谁最强？AI编程排行榜

AI写代码 Claude3.7

AI写代码 Claude3.5

AI写代码 DeepSeekR1

AI写代码 DeepSeekV3

AI写代码 GPT4o

来源地带

admin

我要发盐

评论发盐

admin

	admin 2025-04-17 11:01:37
排行地址：https://www.datalearner.com/ai-models/llm-benchmark-tests/35 0

YunUPan’

未登陆

AI写代码，到底谁最强？AI编程排行榜

AI写代码 Claude3.7

AI写代码 Claude3.5

AI写代码 DeepSeekR1

AI写代码 DeepSeekV3

AI写代码 GPT4o

来源地带

admin

我要发盐

评论发盐

admin