刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天
9986点击    2026-02-06 08:39

Anthropic深夜惊雷,终于祭出了编程之王!


刚刚,Claude Opus 4.6横空出世,一夜成为全球最强编程AI,「无模」能敌。


它在前一代Opus 4.5的基础上,大幅提升了编码技能。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Claude Opus 4.6的规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更加可靠。


最重要的是,它还具备更强自我纠错能力,比如精准的代码审查、调试。


它也是Anthropic首款在beta阶段,上下文支持100万token的Opus级模型


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在多项基准测试中,Claude Opus 4.6编程实力几乎全方位领先,Gemini 3 Pro、GPT-5.2望尘莫及。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在ARC-AGI-2上,Opus 4.6拿下68.8%高分,超过GPT-5.2-xhigh


不仅如此,Opus 4.6一经上线,就开始革命办公了!


今天,这款新模型同时在Excel、PPT中的Claude,以及Claude Code、API中同步上线。


比如奥运长跑鞋供应链数据,和自己预测的不一样,好几个季度数据不能一眼过完,可以紧急向Opus 4.6求救。


它会遍历文件夹下所有Excel表,直接抓出差错的地方,还能同步绘制出折线图。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


同样在PPT中,也能实时调用Opus 4.6了,从布局、字体到母板,Claude都能确保内容符合品牌规范。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


从今天起,Claude Opus 4.6可以在Claude网页端、开发者平台,以及各大平台直接可上手。


硅谷今晚的火药味,恐怕要冲破屏幕了......


Opus 4.6发布后没几分钟,OpenAI紧急掏出GPT-5.3-Codex。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


眼瞧着奥特曼发了预告,Anthropic立刻火速亮剑。只能说,起了个大早赶了个晚集


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


「编程新王」深夜炸场,革命全球打工人


Claude Opus 4.6的官宣,可以说是Anthropic一次重大转折。


负责人Alex Albert是这么说的,「Claude在2025颠覆了编程,在2026年将彻底重塑知识型工作」!


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Opus 4.6绝不仅是一次简单的模型升级,而是AI真正成为人类「职场合伙人」的分水岭——


尤其是对于那些每天泡在表格、PPT和长文档里的打工人。正是这类工作,支撑起了金融和咨询等核心产业。


在真实的金融任务测试中,Opus 4.6比几个月前业界顶尖的Sonnet 4.5,足足提升了23%以上


在这个时代,「几个月前」听起来就像上个世纪。


而且这些测试一点都不抽象,全是实打实的硬活:建财务模型、做路演 PPT、搞并购分析。以前分析师得忙活好几周的工作,现在眨眼间就能完成。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在日常工作任务中,Opus 4.6将成为最强助力——


运行财务分析、进行深度研究,以及使用和创建Word、Excel、PPT,全都可以调用。


值得一提的是,据不完全统计,全球约有15亿人都在Office全家桶上办公,Opus 4.6正在引发一场深层的办公效率变革。


不仅如此,在Claude Cowork中,Opus 4.6可以直接成为「牛马」手替,完成以上一切复杂任务。

刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在输出质量上,Opus 4.6也有了质的飞跃。


以前的模型可能需要反复修改好几轮,甚至根本搞不定;但现在,第一版出来的东西往往就能直接用了。


  • Cowork让你丢进一整个文件夹就能同时启动多项分析;
  • Excel里的Claude 处理起多表财务模型来得心应手,绝不跑偏;
  • PowerPoint里的Claude,让你能直接在软件里生成和修改。


正如AI抹平了开发的门槛,它也将重塑每一位知识工作者的能力边界。


一场生产力的范式转移已箭在弦上,序幕才刚刚开启。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


全面碾压Gemini 3、GPT-5.2


SOTA拿到手软


能够推动这种生产力范式的迁移,前提一定是,有一个实力全方位能打的模型。


Opus 4.6做到了!它在多项评估中的表现均达到了SOTA——


在智能体编程评估Terminal-Bench 2.0中,它拿下了65.4的高分;在HLE测试中,领跑所有其他前沿模型。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


最重要的是,在GDPval-AA知识工作的性能评估中,Opus 4.6比GPT-5.2高出约144 Elo分,比上一代 Opus 4.5高出190分。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


另外,Opus 4.6在智能体搜索BrowseComp基准上,表现完胜任何模型。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


从更全面的基准PK中看,在智能体编程、计算机使用、工具使用、搜索和金融领域,Opus 4.6是业界领先的模型,优势更加明显。


在智能体工具使用t2-bench中,Opus 4.6拿下了近满分的成绩,零售91.9%,电信99.3%。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Opus 4.6在从海量文档中检索相关信息方面,表现得更好。


这种能力延伸到了长上下文任务中,它可以在数十万Token中保存和跟踪信息,且漂移更少,并且能捕捉到即使是Opus 4.5也会错过的深埋细节。


AI模型一个常见的痛点是「上下文衰减」(context rot),即随着对话超过一定数量的Token,性能会下降。


Opus 4.6表现明显优于其前身:在MRCR v2的8-needle 1M变体(一种「大海捞针」基准测试)上,其得分为 76%,而Sonnet 4.5得分仅为18.5%。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


这代表了模型在保持峰值性能的同时,实际可用上下文数量上的质的飞跃。


总而言之,Opus 4.6更擅长在长上下文中查找信息,更擅长在吸收该信息后进行推理,并且总体上具有明显更强的专家级推理能力。


下面的图表显示了, Claude Opus 4.6 在各种基准测试中的表现。


这些测试评估了其软件工程技能、多语言编程能力、长期一致性、网络安全能力及其生命科学知识。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Claude Code「智能体群」登场


一人指挥AI大军


更值得一提的是,Opus 4.6深度集成到了Claude Code中。


如今,在Claude Code中,开发者可以组建智能体团队(agent teams)来协同处理任务


也就是人们最近讨论最热的「智能体群」(Agent Swarms)。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Claude Code之父Boris Cherny警告,尚在实验阶段,可能会消耗大量token


从此以后,不再只是单个Claude孤军奋战、按部就班地处理任务。


如今,「主智能体」可以将任务分发给多个「Claude团队成员」。其他AI可以并行开展调研、调试和开发工作,并实时保持沟通协作。


这意味着,一个开发者可以带领Claude大军搞开发了。只要动动嘴描述一下想法,就能写出软件。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在官方文档介绍中,Anthropic将其称之为「多Claude Code会话团队编排」(Orchestrate teams)。


每次任务中,都会有一个领头人Claude在AI大军中挑起重担,负责统筹全局、分配任务并汇总最终结果。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


可以使用Shift+Up/Down或tmux直接接管任何子智能体(subagent)


其他AI则在各自独立的上下文中各司其职,并且彼此之间可以直接沟通。


这与「子智能体」有所不同:子智能体运行在单一会话内,只能向主智能体汇报;


而对于「AI智能体团队」,开发者可以越过负责人直接与任何一个成员进行交互。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


在下面demo中,可以看到在同一个界面中,多个Agent同步执行任务,让开发效率狂飙。

刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


砸2万美金,16个Claude组团写10万行C编译器


这不,Anthropic打了个样,让Opus 4.6智能体群打造出一款C编译器,人类只「旁观」几乎不干预。


两周后,它成功在Linux内核中运行了!


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


实验中,团队让16个Claude Opus 4.6,在没有任何人类干预的情况下,并行协作开发代码。


为了测试这套系统的极限,给这群AI派了一个硬核任务——从零开始用Rust语言写一个C编译器,而且目标是必须能编译Linux内核。


16个Claude疯狂「加班」,消耗了近20亿个输入Token,总共烧掉了约2万美元的API成本。


实验过程非常有意思,Nicholas Carlini构建了一个自动循环系统,让Claude 完不成任务就不准「下班」。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


这里只想mark下Dario Amodei这句话:未来6-12月,软件工程不再需要人类


为了防止AI们打架,他设计了一套基于Git任务锁机制,让不同的Claude负责不同的模块:


有的在解 Bug,有的在写文档,有的在优化代码质量,甚至还有专门负责「吐槽」架构并进行重构的。


最终结果令人震撼:这支AI战队真的撸出了一个10万行代码的编译器!


它不仅能成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),还能跑通《毁灭战士》(Doom)、PostgreSQL、Redis等复杂项目。

刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


Claude创造Claude,学会深度思考


在Anthropic内部,团队用Claude来构建Claude。


工程师每天都使用Claude Code编写代码,每一款新模型都会首先在内部工作中进行测试。


对于Opus 4.6,团队发现可以在无需被告知的情况下,更加专注于任务中最具挑战性的部分,在较简单的部分快速推进,以更好的判断力处理模棱两可的问题,并在更长的会话中保持高效。


Opus 4.6经常会进行更深度的思考,并在确定答案之前更仔细地重新审视其推理过程。


这在处理较难的问题时会产生更好的结果,但在较简单的问题上可能会增加成本和延迟。


如果发现模型在某个特定任务上「想太多」,建议将 Effort(思考力度)从默认设置(高)调低至中等。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


加入百万token上下文革命


在API上,Claude可以用「上下文压缩」来总结其上下文,从而在不触及限制的情况下,执行运行时间更长的任务。


团队还引入了「自适应思考」(adaptive thinking)——模型可以根据上下文线索感知何时需要使用扩展思考;


以及,全新的Effort(思考力度)控制,让开发者对智能、速度和成本拥有更多掌控权。


在API定价方面,Claude Opus 4.6输入价格5美元/百万token,输出价格25美元/百万token。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


此外,Opus 4.6是首款支持100万Token上下文的Opus级别模型。


对于超过200k Token的提示词,将按高级费率计费(每百万输入/输出 Token分别为10美元/37.5美元)。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


另外,Opus 4.6支持高达128k Token的输出,这让Claude无需将任务分解为多个请求即可完成更大输出量的任务。


对于需要在美运行的工作负载,可以使用仅限美国推理(US-only inference),价格为Token定价的1.1倍。


更安全,更听话


智能的提升并非以牺牲安全性为代价。


在自动化行为审计中,Opus 4.6表现出较低的未对齐行为(misaligned behaviors)发生率,如欺骗、阿谀奉承(sycophancy)、助长用户妄想以及配合滥用。


总体而言,它与我们迄今为止最对齐的前沿模型Opus 4.5一样对齐良好。


Opus 4.6还显示出在任何最近的Claude模型中最低的过度拒绝(over-refusals)率——即模型拒绝回答良性查询的情况。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


最后,用Anthropic负责人Alex Albert一句话总结Claude Opus 4.6的这场发布——


2025年是AI编程走向普及的元年,而2026年,AI将在编程之外的所有领域全面爆发。


刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天


参考资料:


https://www.anthropic.com/news/claude-opus-4-6


https://x.com/claudeai/status/2019467372609040752


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0