Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

6838点击 2026-02-06 12:17

一睁眼，Anthropic上新模型，让Claude Opus 4.6来给您拜！年！了！

消息一出，金融数据服务商FactSet最惨盘中暴跌10%，S&P Global、穆迪、纳斯达克公司纷纷下跌，各大指数全线跳水。

这已经是Anthropic你小子本周第二次搅动市场了。

几天前，它旗下一款自动化法律工作的插件悄悄上线，直接引爆了万亿美元级别的软件股暴跌。

投资者的恐慌聚焦在一个问题：谁能保证几年内不被AI颠覆？不能就抛售。

想不到今天的Anthropic更狠。

今天以前，大家对Claude的印象，就是编程能力断档性的强。

Claude Opus 4.6冷笑一声，梆梆一拳打破这个印象：俺在更多的领域都很强！

至少就官方说法而言，财务分析、研究，以及Office三件套，Claude Opus 4.6都可以玩儿得贼溜。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

官网直接写到：

在GDPval-AA（一项评估金融、法律和其他领域经济价值知识工作任务的性能指标）上，Opus 4.6比行业下一最佳模型OpenAI GPT-5.2高出144个Elo哟～

（这意味着Claude Opus 4.6在大约70%的情况下在这个评估中获得比GPT-5.2更高的分数，50%的情况下意味着分数相当）

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

当然，编程这块它依旧独领风骚。

在Agent编程评估Terminal-Bench 2.0中取得了最高分，并在“人类最后考试”中领先所有其他前沿模型。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

好消息是加量不加价，Opus 4.6的定价保持原有标准：每百万token输入/输出，价格是5美元/25美元。

（为了方便阅读，以下简称新模型为Opus 4.6）

带着 1M 上下文和自适应思考杀回巅峰

Opus 4.6最直观的进步就是有了1M Token超大上下文，这是Claude首次在Opus级别模型中引入这个长度的上下文窗口。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

这极大改善了Opus 4.6在处理长文本时会出现的“上下文衰减”情况。

在MRCR v2 8-needle 1M基准测试——大海捞针——中，Opus 4.6得分76%，而Claude Sonnet 4.5只有18.5%。

伴随而来的结果是搜索能力的提升。

在BrowseComp评测（评估在线检索难获取信息的能力）中，Opus 4.6排名行业第一，深度多步骤代理式搜索表现最佳，能精准定位分散在长文档中的关键信息。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

Opus 4.6还引入了自适应思考（Adaptive Thinking）功能。

以前，使用Claude模型的开发者只能二选一，扩展思考模式要么开，要么关。

现在，Claude可以自己判断什么时候需要深度推理。

（讲真，这一步比ChatGPT慢了哈，下次请搞快点上这种好功能）

配套的effort参数提供四档选择——low、medium、high、max——，默认high，遇到模型过度思考的情况可以手动调低。

另一个实用功能是上下文压缩（Context Compaction）。

当对话接近上下文窗口上限时自动摘要并替换旧内容，让长对话和Agent任务更轻松。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

编码、知识工作、搜索、推理等核心场景，杀爆了

官方博客显示，Opus 4.6一出，几乎无模型能与其争锋。

在编码、知识工作、搜索、推理等核心场景，Opus 4.6有显著突破。

多项评测成绩超越前代及行业竞品，be like：

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

看完有了个大概印象，我们再一个一个掰开说。

首先是编程能力。

Opus 4.6在Terminal-Bench 2.0中拿到了最高分。

从成绩背后的实际能力来看，Opus 4.6能更周密地进行任务规划，可在大型代码库中稳定运行，代码审查与调试精度提升。

而且能自主发现自身错误。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

另一点是Opus 4.6支持多语言编码，能处理跨语言软件工程问题。

它能像高级工程师一样完成数百万行代码库迁移，且用时实打实少一半那种。

写到这里的时候，我不禁在想：

工程师们看到这个消息到底是高兴得头发都不掉了，还是会掉更快呢……（陷入沉思.jpg）

其次，Opus 4.6也在积极入侵传统办公领地。

这次它对Office三件套狠狠出手了。

能直接在Excel里摄入凌乱的非结构化数据，自行推断合理的表格结构，一次操作中可处理多个复杂步骤；

能铭记你公司的PPT模板，包括字体和布局风格也记住，确保生成的PPT没啥AI味，让老板以为是你熬夜框框一顿做的。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

在Cowork环境下，Opus 4.6可以代表用户自主多任务运行，一边跑财务分析，一边把研究成果整理成文档。

感觉，Anthropic有点想把Claude从聊天框里拉到更多空间里的意思？

第三，我们来说说它在推理能力上的进步。

先上个总结：

Opus 4.6在跨领域推理上，更强了。

在多学科复杂推理测试 “人类最后的考试” 中，Opus领先所有前沿模型。

在法律领域，Opus 4.6在40%为满分的BigLaw Bench上，得分90.2%。

在金融、法律等经济价值导向任务评测GDPval-AA 中，Opus 4.6以144 Elo超越“行业竞品”OpenAI GPT-5.2。

无论是复杂的法律、金融专业知识还是刁钻的学术研究，它的推理理解深度都达到了目前frontier models的顶峰。

难得的是，这种智力的飞跃并没有以牺牲安全性为代价。

在Anthropic最看重的自动化行为审计中，Opus 4.6的对齐水平极高，同时，欺骗、奉承等负面行为极低。

Opus 4.6甚至解决了目前AI圈普遍头疼的“过度拒绝”问题——

在面对正常的、无害的请求时，它比以往任何模型都更少地表现出那种死板的拒绝。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

目前，Opus 4，6已经在官网、API和所有主流云平台上线。

加量不加价，Opus 4.6的定价保持原有标准：每百万token输入/输出，价格是5美元/25美元。

不过在10M token上下文测试版本中，提示词超过200k token的话会有额外付费。

划！重！点！

想要使用Opus 4.6的话，需要在调用API的时候明确制定模型标识 “Claude-opus-4-6”。

16个Agent两周写完C编译器，运行毁灭战士

Opus 4.6带来的一项核心能力升级是Agent Teams，即多个Claude实例并行协作，无需人类实时监督。

Anthropic安全团队的研究员Nicholas Carlini拿它做了个压力测试：让16个Agent从零开始用Rust写一个能编译Linux内核的C编译器。

两周时间，近2000次Claude Code会话，烧掉20亿输入Token和1.4亿输出Token，总成本不到2万美元。

最终产出是一个10万行的编译器，能在x86、ARM和RISC-V三个架构上编译Linux 6.9，还能跑Doom。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

这套并行机制让每个Agent跑在独立的Docker容器里，共享一个git仓库。

为了防止多个Agent撞车，都屁颠屁颠跑去解决同一个问题，系统用了一个简单的锁机制。

Agent通过往current_tasks/目录写文件来”认领”任务，git的同步机制自动处理冲突。Agent之间没有专门的通信协议，也没有编排Agent，每个Claude自己决定下一步干什么。

Carlini在博客里写道：

“当Agent开始编译Linux内核时曾一度卡住，因为这是一个巨型单体任务，16个Agent全撞在同一个bug上互相覆盖。”

解法是引入GCC作为”oracle”对照组，让每个Agent只编译内核的随机子集，通过二分法定位问题文件，这样并行能力才真正发挥出来。

500个零日漏洞，开箱即挖

Opus 4.6在网络安全领域的表现让Anthropic自己都有点意外。

在发布前的测试中，Anthropic的前沿红队把Opus 4.6扔进一个沙箱环境，给它Python和常规漏洞分析工具（fuzzer、debugger那些），没有任何专门指令或领域知识，让它自己去找开源代码里的漏洞。

结果它挖出了超过500个此前未知的高危零日漏洞。

每一个都经过了Anthropic团队成员或外部安全研究员的验证的哦。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

具体案例包括：

在GhostScript（一个处理PDF和PostScript文件的常用工具）中发现了一个可导致崩溃的漏洞，而且是在传统fuzzing和人工分析都没找到问题之后，Claude自己翻了项目的git提交历史才挖出来的；

在OpenSC（处理智能卡数据的工具）和CGIF（处理GIF文件的工具）中发现了缓冲区溢出漏洞；在CGIF那个案例里，Claude甚至主动写了PoC（概念验证代码）来证明漏洞真实存在。

Anthropic前沿红队负责人Logan Graham说，如果这成为未来开源软件安全审计的主要方式之一，他一点也不惊讶。

不过Anthropic也承认，这种能力可能被滥用。

为此，团队加了六套新的网络安全探测机制，未来可能会上线实时拦截系统来阻止恶意流量。

One More Thing

官网显示，Anhtropic现在已经是“用Claude构建Claude”。

自家工程师每天都在用Claude Code编写代码，每个新模型首先都在自己的工作环境中进行测试。

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

参考链接：

[1]https://www.anthropic.com/news/Claude-opus-4-6

[2]https://www.anthropic.com/engineering/building-c-compiler

[3]https://x.com/i/trending/2019496145987232014

[4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting

[5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/

[6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

文章来自于“量子位”，作者 “衡宇梦晨”。

关键词: AI新闻 , Claude Opus 4.6 , Claude 4.6 , Claude

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0