Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……
5828点击    2025-11-04 17:32

半成品模型,已经刷下高难度数学推理测试AIME 25满分战绩


开源之王Qwen又在深夜放大招了。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


Qwen3“超大杯”推理版露出庐山真面目,虽然还是“早期预览版”,仍在训练中,但在当前的Checkpoint,已经能在AIME 25和HMMT25(哈佛-MIT数学竞赛)中达到100%的准确率。


什么概念?就是一整个全场看呆的节奏:


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


此前,AIME 25的最好成绩由GPT-5系列把持,GPT-5 Codex(high)的准确率是98.7%,GPT-5(high)是94.3%。而Qwen3 235B的成绩是91%。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

图源:Artificial Analysis


这不Ilya和奥特曼还在为当年的“真还传”扯头花嘛,有网友感叹:


这个完成度令人难以置信。OpenAI还在搞抓马,而Qwen已经默默耕耘惊艳众人。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


目前,这个Qwen3-Max-Thinking的早期预览版已经可以在Qwen Chat中免费试用,API也已上线阿里云。官方承诺,训练还在继续,后续会持续更新版本。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


实测Qwen3-Max-Thinking


技术细节方面,Qwen官方尚未透露更多信息,但如果你感兴趣,现在就可以实测见真章。


我们已经测试了一波,以供参考。


先上经典题:小球碰撞测试。


编写一个Python程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


Qwen3-Max-Thinking一次成功,效果很不错。


既然是AIME 25满分选手,那么接下来,我们直接上IMO竞赛题。


求所有实数α,对于任一正整数n,整数 ⌊α⌋ + ⌊2α⌋ + … + ⌊nα⌋ 一定是n的倍数。(注:⌊z⌋表示小于或等于z的最大整数。例如:⌊-π⌋ = -4,⌊2⌋ = ⌊2.9⌋ = 2。)


面对这道有数论意味的代数题,模型思考了5分钟左右,给出答案:


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


回答正确。


完整答案如下:


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


前端方面,我们用简单的提示词,要求Qwen3-Max-Thinking用Three.js构建3D太阳系。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


一开始,模型偷了个懒,只绘制了4颗行星,并且虽然设置了控制行星运动速度的按键,但实际并没有自转和公转的效果。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


经过人工提醒之后,Qwen3-Max-Thinking补全了八大行星,优化了前端效果,不过公转的问题还是没有解决。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


需要说明的是,Thinking模式下,Qwen3-Max的思考时间还挺久的……如果一时间想不明白,还会出现中英文各想一遍的情况(doge)。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


初步体验下来,Qwen3-Max-Thinking有很多值得深挖的地方,不过也正如Qwen技术负责人林俊旸所说,“要做到面面俱到确实有点难”。


我们还需要更多时间。工作尚未完成。


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


而对于网友们来说,更重要的是——


“啥时候开源?”


Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……


体验地址:

https://chat.qwen.ai/

API地址:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview


文章来自于“量子位”,作者 “鱼羊”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0