正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

9374点击 2026-04-08 14:15

这一模型专为长程任务打造。

智东西4月8日报道，今天，智谱正式开源其最强模型GLM-5.1，这一模型在专业软件开发基准测试SWE-Bench Pro中，GLM-5.1刷新全球最佳成绩，得分达到58.4，超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型，和MiniMax M2.7、Kimi K2.5等开源模型。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

GLM-5.1并非只能跑跑简单的Vibe Coding小案例，它专门面向长程任务设计，能持续地自主规划、执行并迭代，最终交付完整的工程结果。

两个官方演示，直接把“长程任务”的能力具象化了：

在向量数据库的调优任务中，GLM-5.1没有人类手把手教，自己跑了655轮迭代——测试、分析、改代码、再测试……最终把性能硬生生提升至3.6倍。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

它还靠着一张架构草图，连续自主工作了超过8小时，执行了1200多个步骤，最终输出了一套功能完备的Linux桌面系统。官方测算，这相当于一个4人小团队连轴转一周的工作量。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

这个“8小时不间断工作”的纪录，让它成为了全球首个在真实工程任务中验证这一能力的开源模型。

这意味着，那些过去只属于人类团队的复杂、长周期工程级任务，现在对逐渐AI也敞开了大门。

海外网友火速体验：

体感接近Opus 4.6

成本暴砍至1/30

GLM-5.1一经发布，就吸引了海量关注，其推文的阅读量在12小时内就冲破了200万次，目前已经飙到227万次了。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

不少体验过GLM-5.1的网友纷纷发帖评价，在这些帖子中，有一个关键信息被反复提及：GLM-5.1的使用体感，已经接近Claude Opus 4.6。

AI开发者toli拿GLM-5.1和Opus 4.6跑了113个编程任务，发现GLM-5.1的体感就和Opus一样。同时，智谱的Coding Plan提供了Claude Code订阅三倍的用量，价格只有后者的1/3。Toli认为，GLM-5.1是绝对的杀手级产品。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

另一位开发者Beau Johnson分享，他已经将自己部署的OpenClaw背后的模型，从Opus 4.6替换为GLM-5.1，作为协调和执行Agent。这一切换没有带来任何体验上的差别，而成本却从1000美元暴砍至30美元左右。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

软件定制公司Zenoware的创始人JP分享了他用GLM-5.1 one-shot做出来的10个案例，JP认为这是最接近Claude Opus 4.6的中国模型，给Opus 4.6带来了严重威胁。以下是JP部分案例的集锦：

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

口碑之外，GLM-5.1在多项基准测试中的表现，同样值得仔细拆解。

在编程能力这一维度，有三个基准测试的成绩较有参考性，包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo。在这三个基准测试中，GLM-5.1的得分已经拍到全球第三、国产第一、开源第一。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

而在考察模型设计能力的Design Arena上，GLM 5.1排名第四，同时多款GLM模型也包揽了这一榜单上的前四名，这个表现，基本可以和Opus 4.6还有Sonnet 4.6一块儿坐主桌了。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

而在文本能力维度，Text Arena上GLM-5.1被评为排名第一的开源模型。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

真刀真枪一手实测：

连续接受十几条需求变更

还扛住了拔网线和复杂遗留代码

榜单好看，用户也叫好，但真正的考验还是在实际使用里。这次，智谱格外强调“长程任务（Long-Horizon Tasks）”，确实精准判断了当前大模型在工业界落地的痛点。

在真实的软件工程或复杂业务场景中，几乎没有任何有价值的问题是可以通过“一问一答”或“单次生成”解决的。只有真正具备了自主试错和策略演进的能力，模型才能像中高级工程师一样去“啃”硬骨头，而不是只写个初版就罢工。

这已经几乎成为了行业共识。无论是GLM-5.1、Claude Opus 4.6还是GPT-5.4，各家都在将长程能力作为核心卖点。

原因是，对于真正要拿AI干活、提效的企业而言，分数、正确率、排行榜都只是参考，他们关心的是模型能否在拿到一个任务后无需人工干预，自动诊断并修复问题，能否用8小时替代一个初级工程师一周的重复劳动，这些，才是可见的真实生产力。

那么，GLM-5.1到底能不能打？它真的能成为Opus 4.6的国产平替吗？我们拿GLM-5.1和Opus 4.6跑了两个完整工程任务，烧掉几百万token，看看它们的真实表现到底如何。

1、从零搭建待办看板，前后端+数据库全闭环

Prompt：

在一个空目录下，从零搭建一个完整的“待办事项看板”前端+后端，使用FastAPI+React，连接PostgresSQL数据库，实现增删改查。

拿到这一任务后，GLM-5.1和Opus 4.6都进行了初步的项目规划，拆解提示词中的要求，然后再开始开发。值得一提的是，我们用于测试的电脑环境相对老旧，还缺失部分依赖。率先进行开发的GLM-5.1马上定位了这些问题，直接“动手”帮我们装好了。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

其实，GLM-5.1和Opus 4.6一开始给出的结果都有点简陋。于是我们向两个模型发送了十几条修改意见，包括要打造完整的导航菜单、配备全局搜索框+通知系统+用户头像、三级分组菜单等等。

GLM-5.1并没有被这一连串的“干扰”打断自己的开发节奏，在多轮需求变更后仍然可以成功交付。最终它打造的任务看板功能完整度较高，交互体验流畅，前后端数据也是联动的——新增的项目的确能在数据库中找到。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

此外，网页的UI细节也很到位，字体大小层级分明，光标悬停在卡片上时有微动效，还通过颜色区分了任务的优先级。

再来看看Opus 4.6的表现。在基础功能上，Opus 4.6同样实现了基于数据库的增删改查核心功能，不过网页的色彩选择和UI设计有些单调。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

这一表现源于智谱在训练策略上的创新：通过显著扩展任务过程的训练窗口，采用多轮监督微调（multi-turn SFT）与强化学习（RL）结合的训练范式，GLM-5.1得以在完整的任务流程中学习，从“接受任务→规划→执行→调整→交付”的全过程都被纳入学习信号。因此，它不会因新指令的影响，丢掉原本的目标与方向。

2、网络中断+遗留代码+中文乱码：GLM-5.1如何自救？

Prompt：

搭建一个简易的电商后台，需要实现商品管理、订单流程和支付对接。

当AI模型进入企业，面临的往往是更多复杂的不确定性，比如模糊的目标，混乱的项目结构等等。在这些因素的干扰下，GLM-5.1还能稳定交付吗？

GLM-5.1的新任务，是搭建一个简易的电商后台，发送指令后，我们刻意使了点坏，在GLM-5.1快写完项目的时候把网给掐了，并关闭了现有的上下文窗口。重启Claude Code之后，再让它根据之前的项目文件继续开发。

GLM-5.1没有被这一小插曲影响。在告诉它原项目的地址后，GLM-5.1花了3分钟梳理了这个项目的后端部分，然后开始补齐前端缺失的代码。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

理解遗留代码是开发的前提，理解程度直接影响着后续的开发质量。在GLM-5.1输出的前端设计框架中，可以看到它对原本的后端代码分析十分到位，不仅准确识别了Express 5+SQLite的技术栈，还敏锐地发现了后端缺少全局支付列表接口这一设计缺陷，并据此提出了“订单列表+展开行加载支付记录”的解决方案。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

这得益于GLM-5.1更好的状态延续与上下文整合。面对长时间跨度和大量上下文信息，GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作，持续整合新信息，保持执行链路的一致性。

在即将完成开发时，GLM-5.1在我们没有要求的情况下，主动检查了后端的API路径，并发现并逐一修复了5个问题。这种“实验→分析→优化”的闭环，正是GLM-5.1能在长任务中始终保持方向不偏、质量统一、无需人工频繁纠偏的重要原因。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

最终，GLM-5.1交付了这一电商后台项目，核心功能运转正常，还将后台数据进行了可视化。不过，我们刻意人为动手修改了中文字符的编码，让这一电商后台的中文字符显示为小方块。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

为排查这一问题，GLM-5.1进行了29次工具调用，主要都是阅读文件，多工具协同效果稳定。最后，它发现数据库中多处中文字段都是乱码（GBK编码被错误当UTF-8存入），于是很快进行了修复。可以说，GLM-5.1在多轮工具调用和长上下文场景中，表现出工程师般的自主诊断和修复能力。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

经历这两个小插曲，GLM-5.1用大概45分钟的时间完成了整个项目的开发，修复后的结果如下。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

它交付了整整两个文件夹的成果，算上代码、组件库等等，有数百个文件，大小也来到了40多兆。

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

拿到同样任务的Opus 4.6，交付的结果如下：

正面硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”，它居然…

从结果上来看，即便是我们人为给GLM-5.1上强度，它交付的结果也和Opus 4.6的结果保持在相似的水平线上。在保持原有功能、优化代码结构等多重任务中，GLM-5.1仍然完成了高质量的方案设计与执行，充分验证了其在复杂开发和维护任务中的工程化能力。

结语：开源模型长程任务能力突破

从“回答问题”到“交付项目”

顶尖开源模型，正极大地拉近与闭源模型的差距。长程任务是Claude引以为傲的能力之一，模型不仅要会写代码，还要像人一样在数小时内保持目标感、处理意外、自我纠偏、并坚持到最后一刻。

过去，这一直是闭源模型的护城河，也是开源模型难以逾越的分水岭。

智谱称，GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。同时，我们的实测也显示，GLM-5.1不是靠“更长的上下文窗口”去死记硬背，而是真正学会了“规划→执行→检查→修复→交付”的完整工作流。

大模型正在从“回答问题”走向“交付项目”。在这一方向上，GLM-5.1已具备了在真实、混乱、长周期的工程环境中，独立承担任务的底气。

文章来自于微信公众号 "智东西"，作者 "智东西"

关键词: AI新闻 , GLM-5.1 , GLM-5.1开源 , 智谱

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0