AI写代码,到底谁最强?AI编程排行榜

admin · 2025-04-17 10:57:46



首先,如何评判代码能力?

在人工智能领域,随着大型语言模型(LLMs)在各类任务中的表现不断提升,评估这些模型的实际能力变得尤为重要。SWE-Bench Verified 是一个用于评估软件工程能力和软件质量的标准工具,包含 500 个经过验证的样本,并取代了原始的 SWE-bench 和 SWE-bench Lite 测试集。它涵盖了多个方面,包括代码的准确性、效率和可维护性等,这对于软件行业至关重要。

下面直接排行数据:
Claude Sonnet 3.7第一,
Gemini2.5第二,
GPT4.1第三。国产DSR1第5。
不过就实际体验,Claude3.5也要好于DeepSeekR1,Claude Sonnet 3.7再强,也会降智,GPT4o什么的,编写完成网页什么的,就不用测试了,浪费时间。有空我去尝试一下Gemini2.5。
下面是我此前的测试对比:
请在公众号查看,图片过大。
地址:https://mp.weixin.qq.com/s/LBWdvMwfdp7qNrYwIaUI2w


AI写代码 Claude3.7


AI写代码 Claude3.7,可以绘制草图为svg,但是需要排队,新建一个文件夹后...排队,然后快写完了就超时了

AI写代码 Claude3.5


AI写代码 Claude3.5,图片为R1保存的,未删除,它自己使用了。

AI写代码 DeepSeekR1


AI写代码 DeepSeekR1
图片已手动替换部分,代码仿真dw程度高,但效果差,其他的代码没怎么注意。

AI写代码 DeepSeekV3


AI写代码 DeepSeekV3

AI写代码 GPT4o


AI写代码 GPT4o

AI写代码 测试词

使用工具:trae,3.7经常排队,可以画svg图片。
帮我完成一个毕业作品,模拟人工编写和模拟Dreamweaver软件的效果,页面不要太完美,具体需求要求如下:

作品要体现出我校学生拼搏向上的朝气,作品主题鲜明,创意新颖,页面结构美观。主题为:沧州文旅宣传(大运河)。

1.内容健康、充实且积极向上;内容具有观赏性、普及性、艺术性、可读性,语言文字有特点。

2.突出沧州文旅主题,全站点围绕一个主题及其周边内容进行建设。

3.设计思路清晰,明确表达设计意图。IP具有原创性和独特性,色彩协调,具有识别度、延展性等。

4.网页有较强的个人设计创意,色彩搭配鲜明,内容布局合理,整体视觉效果好。图片清晰,色彩明艳,具有创意和构思,符合规范,整体视觉效果好。

5.有一个说明文档,内容包括小组成员名字及分工,网站设计的想法,以及IP设计类的思考来源,格式.txt。

6.作品交付无错误。

7.没有空链接和错误链接,点击对应的项目可以跳转到对应的详情页面。

8.作品中所有文件均要以字母命名,包括各文件夹、网页文件、图片文件、Flash文件等等。

9.各个网页有明确主题(如首页、登陆页面等。

10.首页有导航条。

11.正确显示图片。

12.合理使用CSS样式。

13.作品页面数量6个以上。

14.作品必须自行设计、制作,不得抄袭,不得套用网上或相关网页制作软件的模板。

15.有简单的设计草图。

链接使用相对链接,实现dw软件的代码效果,网页不要太简陋,按上述要求完成。写完所有html后再编写样式,版权时间2025年,表单不需要required placeholder,除非dw软件自带有这个效果。css也要有dw的软件效果,不能使用root,*,css变量。


85 

AI编程,AI排行,AI排名,AI模型,AI数据,AI码农,AI分析

来源地带

admin

这个人太懒咯

我要发盐
评论发盐
admin
admin

2025-04-17 11:01:37

排行地址:https://www.datalearner.com/ai-models/llm-benchmark-tests/35 0