刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

12254点击 2025-09-06 10:16

阿里迄今为止，参数最大的模型诞生了！

昨夜，Qwen3-Max-Preview（Instruct）官宣上线，超1万亿参数性能爆表。

直接用成绩说话——

在全球主流权威基准测试中，Qwen3-Max-Preview狂揽非推理模型「C」位，直接碾压Claude-Opus 4（Non-Thinking）、Kimi-K2、DeepSeek-V3.1。

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

甚至，它把自家Qwen3-235B-A22B-Instruct-2507狂甩身后，堪称「AI卷王本王」。

· 知识推理评测（SuperGPQA）拿下64.6分

· 数学推理评测（AIME25）拿下80.6分，断崖式领先

· 竞争性编程评测（LiveCodeBench V6）拿下57.5分

· 复杂问题解决和人类偏好对齐评测（Arena-Hard v2）拿下86.1分，优势巨大

· 被称为「无法被操控的」评测（LiveBench）拿下79.3分

惊艳的性能表现再次证明了，Scaling仍然有效，参数越大模型性能越强。

总的来说，Qwen3-Max-Preview有以下几大亮点：性能更强、知识更广、更擅长对话、任务处理、指令遵循。

新模型可支持100+语言，还针对RAG、工具调用进行优化。

模型一出，全网立即开始了实测。

@karminski-牙医实测中，Qwen3-Max-Preview前端能力明显超越DeepSeek-V3.1。

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

比如，在一个杯子流体模拟中，Gemini 2.5在倾倒前杯子底部有严重bug，DeepSeek-V3.1杯子中物体倒出的状态（最后有一条线）不对，而Qwen3-Max-Preview比较符合物理常识。

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

Qwen3-Max-Preview还能完美生成一个骑自行车的鹈鹕SVG、一键直出精美前端网页，一张照片做出像素花园。

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

目前，模型已正式上线阿里云百炼平台，可通过API直接调用。同时，Qwen Chat也同步上线新模型，支持免费使用。

在百炼平台上，最大支持256k上下文，依token数阶梯计费：

· 0-32k token：输入0.006元/千token；输出0.024元/千token

· 32k-128k token：输入0.01元/千token；输出0.04元/千token

· 128k-252k token：输入0.015元/千token；输出0.06元/千token

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

文章来自微信公众号 “ 新智元 ”

关键词: AI新闻 , Qwen3-Max , Qwen3-Max-Preview , 阿里模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI