Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
8975点击    2025-11-25 11:00

两小时高强度工程任务,模型得分超过所有人类!


刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出Excel成果:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的Word文件包含修订痕迹与定制内容:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


团队实测中发现,模型核心优势在于“理解力”,它能解决Sonnet模型无法发现的bug,同时知道“何时先思考再行动”。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


目前,Opus 4.5已通过app、API及三大主流云平台开放使用。开发者通过Claude API调用claude-opus-4-5-20251101即可使用,定价每百万tokens 5美元(输入)/25美元(输出)


与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。


编码智能体能力全面升级


团队内部测试发现,Claude Opus 4.5能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。


之前Sonnet 4.5几乎无法完成的任务,如今Opus 4.5已能轻松胜任。测试者普遍认为Claude Opus 4.5能“真正理解用户需求”。


团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试Claude Opus 4.5。


在规定的2小时时间限制内,Claude Opus 4.5的得分超过了所有参加过该考试的人类候选人


团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了关于AI如何重塑工程行业的思考。


下面来看具体数据。


视觉处理、推理与数学方面,Claude Opus 4.5均超越前代,达业界顶尖水平:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


编码能力方面,Opus 4.5在SWE-bench多语言测试中,8种编程语言里有7种的表现位列榜首。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


在Aider Polyglot基准测试中,面对高难度编码难题,得分较Sonnet 4.5大幅提升10.6%


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


Opus 4.5在智能体搜索方面也有显著提升:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


长时任务续航能力拉满,在Vending-Bench测试中,Opus 4.5的任务完成收益较Sonnet 4.5高出29%,全程保持高效输出不跑偏:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。


比如在τ2-bench中,有一个场景,模型必须扮演航空公司服务Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但Opus 4.5却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


最后,Claude Opus 4.5安全防护能力升级,尤其是在抵御提示词注入攻击等方面:


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


开发者平台以及系列产品升级


面向开发者,Claude API新增了“努力度参数” (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。


在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。


在最高努力度设置下,其性能较Sonnet 4.5提升4.3个百分点,同时tokens用量减少48%。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5支持更长时运行、更多任务处理,且所需人工干预大幅减少。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


Claude Opus 4.5还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。


在团队测试中,结合这些技术,Opus 4.5在深度调研评估中的表现提升了近15个百分点。


另外,Claude系列产品也随之升级了。


随Opus 4.5的发布,Claude Code推出两大新功能:


计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude会先主动确认需求细节,再生成可编辑的 plan.md文件后执行操作。


Claude Code现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


对于Claude app用户,再也不用担心上下文窗口不够,长对话中断。现在Claude会自动按需总结之前的对话内容,聊天直接解锁无限续航模式


除此之外,支持跨标签页处理任务的Chrome浏览器Claude扩展程序,现已向所有Max订阅用户开放。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


Claude for Excel今日起将测试权限扩展至所有Max、Team及Enterprise用户。


Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏


面向可使用Opus 4.5的Claude及Claude Code用户,官方取消了Opus专用限额。针对Max与Team Premium用户的整体使用额度已上调,Opus tokens用量与此前Sonnet大致持平。


官方Blog:

https://www.anthropic.com/news/claude-opus-4-5

参考链接:

https://x.com/claudeai/status/1993030546243699119?s=20


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0