大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5
6848点击    2025-11-07 15:32

一、


上个月,我写了一篇文章[1],比较了两个大模型。


就有人留言,两个模型太少了,能不能加入其他模型?


正好上周(10月27日),MiniMax 公司发布了[2] M2 模型,代表了国产大模型的最新水平。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


我就想,可以测测它的实战效果,跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。


毕竟它们都属于目前最先进的编程大模型,跟我们开发者切身相关。


二、


先要说明,其实我不太熟悉 MiniMax 公司[3],它比较低调。


我只知道,这家公司专门研发大模型,产品有文本模型、视频模型、音频模型等等,但都不是非常热门。我就没有特别关注。


上周,我在滑推特的时候,看到一些老外在议论(1[4]、2[5]、3[6]),这才知道 MiniMax 发布了新的旗舰模型 M2。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


上面说话的这个人[7]是 HuggingFace 大模型社区的负责人,提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五,开源模型第一。


当天的 HuggingFace 热度榜上,它也是第一名。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


OpenRouter 的大模型全球调用量排名,它这周排在第三。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


我就来了兴趣,准备好好试用一下。


三、


根据 MiniMax 公司的说明,M2 模型的编程能力特别强,是目前最优秀的编程模型之一。


大家知道,国际上最流行的编程模型现在是 Claude Sonnet 4.5,国内的 GLM 4.6 模型也很强,我就把它们三个放在一起对比。


简单起见,我就直接在官方的网页版(国内版[8],国外版[9])上运行测试,大家可以跟着一起动手试试看。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


网页版实际是官方的智能体产品 MiniMax Agent[10],底层用的就是 M2 模型。


网页使用是免费的,API 调用现在也是免费期,为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币,官方宣传只有 Claude 价格的8%。


它的其他链接,我也列一下,文档仓库[11]在 GitHub,API 调用指南[12](兼容 OpenAI 和 Anthopic 格式)看官方文档,模型下载[13]在 HuggingFace,下载以后可以本地部署使用(如果条件允许)。


四、


我的测试题来自著名程序员西蒙·威利森(Simon Willison),他的网站有 Cluase Sonnet 4.5 的测试结果[14]。


此前,我用这些题目测过智谱公司的 GLM 4.6 模型,大家可以参考[15]。


本文主要是 MiniMax M2 的测试表现。


五、


第一题,测试模型理解和运行代码的能力。


拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。
pip install -e '.[test]'
pytest


上面的提示词要求模型抓取一个 Python 仓库,运行里面的测试用例,并返回结果。


从网页的显示来看,Minimax Agent 显然内置了沙盒,会在隔离环境的命令行下运行代码(下图)。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


整个运行过程大约三分钟,然后它给出了结果:运行通过了466个测试用例。这个结果完全正确。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


令我惊喜的是,除了运行结果,它还给出了覆盖率分析(下图),指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

完整的对话看这里[16]。


六、


第二题,测试大家最关心的代码生成能力,看看它能不能按照要求生成应用程序。


我还是使用上面的仓库,要求 M2 为其增加一个功能,不仅需要修改代码,还需要修改数据库结构,并增加配套的测试用例。


1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。
2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。
3、编写新的 pytest 测试用例,验证你的设计。
4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。


这个任务比较复杂,运行时间稍微长一点。


这里有一个插曲。在运行过程中,它突然提示读取 GitHub 仓库没有成功,这时出现了我意外不到的一幕。


它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面,分析数据库结构时,它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换,我也是第一次见,可惜没来得及截图。


任务完成后,它给出了一段总结(下图),详细描述了它做了哪些事情,包括修改数据库、新增测试用例等等。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

它甚至增加了一个示例文件(下图),演示新增的功能怎么用,还有一个示例图,演示修改后的对话结构,提示词里面可没要求它这么做。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

完整的对话看这里[17]。


另外,官网的画廊[18]有很多它生成的应用,我觉得也值得看一下。


七、


第三题就是西蒙·威利森发明的“鹈鹕骑自行车”场景,测试它的理解和推理能力。


生成鹈鹕骑自行车的 SVG 图片。(Generate an SVG of a pelican riding a bicycle)


这是现实中不存在的情景,全靠模型自己推理出来。理解能力越强,生成的图像就越逼真。


下面就是它生成的结果,完整的对话看这里[19]。


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


作为比较,我把另外两个模型的结果也贴出来。


GLM 4.6


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

Claude Sonnet 4.5


大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5


我觉得,MiniMax M2 的结果(第一张图片)有两个值得注意的地方。首先,它添加了道路;其次,它的自行车结构相对更正确,只是缺了握把。另外,要是那只鹈鹕的姿势更像“骑车”就好了。


八、


测试就到这里,至于 GLM 4.6[20] 和 Claude Sonnet 4.5[21] 的结果对比,大家可以看它们各自的链接,自行比较。


我必须诚实地说,MiniMax M2 的表现超出了我的预期


最吸引我的地方,还不是运行结果本身,而是它处理问题的方式,对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。


我倾向于相信,各种评测结果确实是 M2 的真实实力。再考虑到它的 API 价格(现在还是免费期),我会在接下来的工作中使用它,也推荐大家试试看。


(完)


References


[1] 一篇文章:https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html

[2]发布了:https://www.minimaxi.com/news/minimax-m2

[3]MiniMax 公司:https://www.minimaxi.com/

[4]1:https://x.com/reach_vb/status/1982705125157126590

[5]2:https://x.com/ivanfioravanti/status/1982103760819064967

[6]3:https://x.com/simonw/status/1982825075553493136

[7]说话的这个人:https://x.com/reach_vb/status/1982705125157126590

[8]国内版:https://agent.minimaxi.com/

[9]国外版:https://agent.minimax.io/

[10]MiniMax Agent:https://www.minimaxi.com/news/minimax-agent

[11]文档仓库:https://github.com/MiniMax-AI/MiniMax-M2

[12]API 调用指南:https://platform.minimax.io/docs/guides/text-generation

[13]模型下载:https://huggingface.co/MiniMaxAI/MiniMax-M2

[14]测试结果:https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/

[15]参考:https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html

[16]这里:https://agent.minimaxi.com/share/329839918691041?chat_type=1

[17]这里:https://agent.minimax.io/share/329995155439860?chat_type=1

[18]画廊:https://agent.minimaxi.com/

[19]这里:https://agent.minimaxi.com/share/329832235541493?chat_type=1

[20]GLM 4.6:https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html

[21]Claude Sonnet 4.5: https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/


文章来自微信公众号 “ 阮一峰的网络日志 “,作者 ” 阮一峰 “

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0