正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…
8807点击    2026-04-08 14:15

正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


这一模型专为长程任务打造。


智东西4月8日报道,今天,智谱正式开源其最强模型GLM-5.1,这一模型在专业软件开发基准测试SWE-Bench Pro中,GLM-5.1刷新全球最佳成绩,得分达到58.4,超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型,和MiniMax M2.7、Kimi K2.5等开源模型。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


GLM-5.1并非只能跑跑简单的Vibe Coding小案例,它专门面向长程任务设计,能持续地自主规划、执行并迭代,最终交付完整的工程结果。


两个官方演示,直接把“长程任务”的能力具象化了:


在向量数据库的调优任务中,GLM-5.1没有人类手把手教,自己跑了655轮迭代——测试、分析、改代码、再测试……最终把性能硬生生提升至3.6倍。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


它还靠着一张架构草图,连续自主工作了超过8小时,执行了1200多个步骤,最终输出了一套功能完备的Linux桌面系统。官方测算,这相当于一个4人小团队连轴转一周的工作量。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


这个“8小时不间断工作”的纪录,让它成为了全球首个在真实工程任务中验证这一能力的开源模型。


这意味着,那些过去只属于人类团队的复杂、长周期工程级任务,现在对逐渐AI也敞开了大门。


海外网友火速体验:


体感接近Opus 4.6


成本暴砍至1/30


GLM-5.1一经发布,就吸引了海量关注,其推文的阅读量在12小时内就冲破了200万次,目前已经飙到227万次了。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


不少体验过GLM-5.1的网友纷纷发帖评价,在这些帖子中,有一个关键信息被反复提及:GLM-5.1的使用体感,已经接近Claude Opus 4.6。


AI开发者toli拿GLM-5.1和Opus 4.6跑了113个编程任务,发现GLM-5.1的体感就和Opus一样。同时,智谱的Coding Plan提供了Claude Code订阅三倍的用量,价格只有后者的1/3。Toli认为,GLM-5.1是绝对的杀手级产品。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


另一位开发者Beau Johnson分享,他已经将自己部署的OpenClaw背后的模型,从Opus 4.6替换为GLM-5.1,作为协调和执行Agent。这一切换没有带来任何体验上的差别,而成本却从1000美元暴砍至30美元左右。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


软件定制公司Zenoware的创始人JP分享了他用GLM-5.1 one-shot做出来的10个案例,JP认为这是最接近Claude Opus 4.6的中国模型,给Opus 4.6带来了严重威胁。以下是JP部分案例的集锦:


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


口碑之外,GLM-5.1在多项基准测试中的表现,同样值得仔细拆解。


在编程能力这一维度,有三个基准测试的成绩较有参考性,包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo。在这三个基准测试中,GLM-5.1的得分已经拍到全球第三、国产第一、开源第一。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


而在考察模型设计能力的Design Arena上,GLM 5.1排名第四,同时多款GLM模型也包揽了这一榜单上的前四名,这个表现,基本可以和Opus 4.6还有Sonnet 4.6一块儿坐主桌了。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


而在文本能力维度,Text Arena上GLM-5.1被评为排名第一的开源模型。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


真刀真枪一手实测:


连续接受十几条需求变更


还扛住了拔网线和复杂遗留代码


榜单好看,用户也叫好,但真正的考验还是在实际使用里。这次,智谱格外强调“长程任务(Long-Horizon Tasks)”,确实精准判断了当前大模型在工业界落地的痛点。


在真实的软件工程或复杂业务场景中,几乎没有任何有价值的问题是可以通过“一问一答”或“单次生成”解决的。只有真正具备了自主试错和策略演进的能力,模型才能像中高级工程师一样去“啃”硬骨头,而不是只写个初版就罢工。


这已经几乎成为了行业共识。无论是GLM-5.1、Claude Opus 4.6还是GPT-5.4,各家都在将长程能力作为核心卖点。


原因是,对于真正要拿AI干活、提效的企业而言,分数、正确率、排行榜都只是参考,他们关心的是模型能否在拿到一个任务后无需人工干预,自动诊断并修复问题,能否用8小时替代一个初级工程师一周的重复劳动,这些,才是可见的真实生产力。


那么,GLM-5.1到底能不能打?它真的能成为Opus 4.6的国产平替吗?我们拿GLM-5.1和Opus 4.6跑了两个完整工程任务,烧掉几百万token,看看它们的真实表现到底如何。


1、从零搭建待办看板,前后端+数据库全闭环


Prompt:

在一个空目录下,从零搭建一个完整的“待办事项看板”前端+后端,使用FastAPI+React,连接PostgresSQL数据库,实现增删改查。


拿到这一任务后,GLM-5.1和Opus 4.6都进行了初步的项目规划,拆解提示词中的要求,然后再开始开发。值得一提的是,我们用于测试的电脑环境相对老旧,还缺失部分依赖。率先进行开发的GLM-5.1马上定位了这些问题,直接“动手”帮我们装好了。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


其实,GLM-5.1和Opus 4.6一开始给出的结果都有点简陋。于是我们向两个模型发送了十几条修改意见,包括要打造完整的导航菜单、配备全局搜索框+通知系统+用户头像、三级分组菜单等等。


GLM-5.1并没有被这一连串的“干扰”打断自己的开发节奏,在多轮需求变更后仍然可以成功交付。最终它打造的任务看板功能完整度较高,交互体验流畅,前后端数据也是联动的——新增的项目的确能在数据库中找到。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


此外,网页的UI细节也很到位,字体大小层级分明,光标悬停在卡片上时有微动效,还通过颜色区分了任务的优先级。


再来看看Opus 4.6的表现。在基础功能上,Opus 4.6同样实现了基于数据库的增删改查核心功能,不过网页的色彩选择和UI设计有些单调。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


这一表现源于智谱在训练策略上的创新:通过显著扩展任务过程的训练窗口,采用多轮监督微调(multi-turn SFT)与强化学习(RL)结合的训练范式,GLM-5.1得以在完整的任务流程中学习,从“接受任务→规划→执行→调整→交付”的全过程都被纳入学习信号。因此,它不会因新指令的影响,丢掉原本的目标与方向。


2、网络中断+遗留代码+中文乱码:GLM-5.1如何自救?


Prompt:

搭建一个简易的电商后台,需要实现商品管理、订单流程和支付对接。


当AI模型进入企业,面临的往往是更多复杂的不确定性,比如模糊的目标,混乱的项目结构等等。在这些因素的干扰下,GLM-5.1还能稳定交付吗?


GLM-5.1的新任务,是搭建一个简易的电商后台,发送指令后,我们刻意使了点坏,在GLM-5.1快写完项目的时候把网给掐了,并关闭了现有的上下文窗口。重启Claude Code之后,再让它根据之前的项目文件继续开发。


GLM-5.1没有被这一小插曲影响。在告诉它原项目的地址后,GLM-5.1花了3分钟梳理了这个项目的后端部分,然后开始补齐前端缺失的代码。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


理解遗留代码是开发的前提,理解程度直接影响着后续的开发质量。在GLM-5.1输出的前端设计框架中,可以看到它对原本的后端代码分析十分到位,不仅准确识别了Express 5+SQLite的技术栈,还敏锐地发现了后端缺少全局支付列表接口这一设计缺陷,并据此提出了“订单列表+展开行加载支付记录”的解决方案。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


这得益于GLM-5.1更好的状态延续与上下文整合。面对长时间跨度和大量上下文信息,GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作,持续整合新信息,保持执行链路的一致性。


在即将完成开发时,GLM-5.1在我们没有要求的情况下,主动检查了后端的API路径,并发现并逐一修复了5个问题。这种“实验→分析→优化”的闭环,正是GLM-5.1能在长任务中始终保持方向不偏、质量统一、无需人工频繁纠偏的重要原因。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


最终,GLM-5.1交付了这一电商后台项目,核心功能运转正常,还将后台数据进行了可视化。不过,我们刻意人为动手修改了中文字符的编码,让这一电商后台的中文字符显示为小方块。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


为排查这一问题,GLM-5.1进行了29次工具调用,主要都是阅读文件,多工具协同效果稳定。最后,它发现数据库中多处中文字段都是乱码(GBK编码被错误当UTF-8存入),于是很快进行了修复。可以说,GLM-5.1在多轮工具调用和长上下文场景中,表现出工程师般的自主诊断和修复能力。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


经历这两个小插曲,GLM-5.1用大概45分钟的时间完成了整个项目的开发,修复后的结果如下。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


它交付了整整两个文件夹的成果,算上代码、组件库等等,有数百个文件,大小也来到了40多兆。


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


拿到同样任务的Opus 4.6,交付的结果如下:


正面硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”,它居然…


从结果上来看,即便是我们人为给GLM-5.1上强度,它交付的结果也和Opus 4.6的结果保持在相似的水平线上。在保持原有功能、优化代码结构等多重任务中,GLM-5.1仍然完成了高质量的方案设计与执行,充分验证了其在复杂开发和维护任务中的工程化能力。


结语:开源模型长程任务能力突破


从“回答问题”到“交付项目”


顶尖开源模型,正极大地拉近与闭源模型的差距。长程任务是Claude引以为傲的能力之一,模型不仅要会写代码,还要像人一样在数小时内保持目标感、处理意外、自我纠偏、并坚持到最后一刻。


过去,这一直是闭源模型的护城河,也是开源模型难以逾越的分水岭。


智谱称,GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。同时,我们的实测也显示,GLM-5.1不是靠“更长的上下文窗口”去死记硬背,而是真正学会了“规划→执行→检查→修复→交付”的完整工作流。


大模型正在从“回答问题”走向“交付项目”。在这一方向上,GLM-5.1已具备了在真实、混乱、长周期的工程环境中,独立承担任务的底气。


文章来自于微信公众号 "智东西",作者 "智东西"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0