刚刚,中国AI闯入全球编程前二!前面只剩Claude

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,中国AI闯入全球编程前二!前面只剩Claude
10046点击    2026-05-27 09:14

Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。


就在今天,Code Arena最新榜单出炉!


Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。


排在它前面的,只剩Claude Opus 4.7和Opus 4.6。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。


Qwen3.7-Max闯入全球前五

唯一非Claude模型


其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。


Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。


结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


编程,太能打了


不过跑分再高,不如真刀真枪拉出来练练。


我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。


一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


第一版有个小bug,A/D转向键左右搞反了。


但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


打开的瞬间,说实话,有点被惊到了。


4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。


赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。


一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。


另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。


四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


再看看其他选手的表现。


Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。


相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


刚刚,中国AI闯入全球编程前二!前面只剩Claude


Claude Opus 4.6的效果,有点让人一言难尽了。


不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


最后是GPT-5.5。


可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。


但不知道为什么,金币被做成了黄色的「甜甜圈」……


刚刚,中国AI闯入全球编程前二!前面只剩Claude


造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。


只有Qwen3.7-Max首轮生成就基本可玩。


跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。


Agent时代的「基座」模型


Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。


几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型


刚刚,中国AI闯入全球编程前二!前面只剩Claude


它生来,就是为长时间自主执行任务设计的模型。


内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。


最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


更令人震撼的是它的「持久战」能力——


在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。


全程零上下文退化、零指令漂移、零死循环!


不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。


难点在于,35小时的连贯推理。


绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。


Qwen3.7-Max把「持续做对事」这件事,做出来了。


核心技术揭秘


Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。


第一个是,环境扩展。


Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。


同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。


效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。


这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


第二个升级是,长程自主执行。


在训练中,团队引入了「动态累积生存博弈」框架。


也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。


这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。


更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。


刚刚,中国AI闯入全球编程前二!前面只剩Claude


这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。


而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。


编程决赛,多了一个搅局者


Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。


今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。


在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。


全球编程模型的竞赛,已经不再是硅谷的独角戏了。


参考资料:

https://arena.ai/leaderboard/code/webdev


文章来自于"新智元",作者 "新智元"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0