刚刚!Anthropic发布Claude Sonnet 5,价格只有Opus 4.8的六成

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚!Anthropic发布Claude Sonnet 5,价格只有Opus 4.8的六成
8517点击    2026-07-01 09:05

就在刚刚,Claude Sonnet 5来了!


代号Fennec,耳廓狐,撒哈拉沙漠里体型最小的狐狸。


这是Anthropic迄今为止,Agent能力最强的Sonnet模型,并且性能直逼旗舰Opus 4.8。


即日起,Sonnet 5成为所有Free和Pro用户的默认模型。


突发,打工版Claude 5来了!人人都能用


突发,打工版Claude 5来了!人人都能用


它能自主规划、调用浏览器和终端工具。


就在几个月前,这还需要花大价钱调用超大模型才能做到,现在,Sonnet轻松拿下。


相较于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作任务中,性能显著提升。


划重点:


  • SWE-bench Pro得分63.2%,反超GPT-5.5的58.6%,略输Opus 4.8的69.2%
  • 「人类最后的考试」得分57.4%,和Opus 4.8只差0.5个百分点
  • 标准价每百万token输入$3/输出$15,只有Opus 4.8的六成
  • 浏览器注入防御0.93%,反杀Mythos 5和Opus 4.8


突发,打工版Claude 5来了!人人都能用


有趣的是,Fable 5也在同一天被曝出即将回归。但代价是强制实名验证,并且极大概率仅限美国用户。


而Sonnet 5则主打一个毫无保留,全球用户今天就能敞开用。


突发,打工版Claude 5来了!人人都能用


全线逼平Opus 4.8


最强打工AI突袭


这一次,Sonnet 5的突然上线,也算是填补了人们用不上Fable 5的失落。


对于很多开发者来说,Agent时代的元年,就是从Sonnet开始的。


Claude Sonnet 3.5、3.6、3.7,是最早一批在写代码、用工具上展现出惊人能力的模型。


换句话说,「让AI自己干活」这件事,最早跑通的就是Sonnet「中杯」系列。


但这一年多,最猛的能力跃升,全集中在Opus这条「大杯」线上。Sonnet,直接被旗舰甩在后面。


Sonnet5要做的,就是把这道差距补回来!


Anthropic一句话定调——Claude Sonnet 5是史上最能「干活」的Sonnet。


从实战的成绩来看,最能说明这一点。


突发,打工版Claude 5来了!人人都能用


在传统强项编程领域,Sonnet 5在SWE-bench Pro上豪取63.2%。而前代Sonnet 4.6只有58.1%,Opus 4.8则凭借69.2%暂时领先。


相比之下,老对手OpenAI的旗舰GPT-5.5在同一个榜上只拿到了58.6%,谷歌的Gemini 3.5 Flash也只有55.1%。


Terminal-Bench 2.1更加凶悍,Sonnet 5直接飙到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴涨13个百分点。距离Opus 4.8的82.7%,只差不到2个点。


在号称「人类最后的考试」的跨学科推理基准Humanity's Last Exam上,Sonnet 5带工具斩获57.4%,Opus 4.8是57.9%,只差0.5个百分点。GPT-5.5同一测试只有52.2%,Gemini 3.1 Pro是51.4%。


电脑操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同样超过GPT-5.5的78.7%,直追Opus 4.8的83.4%。


更让人意外的是知识工作,Sonnet 5更是在GDPval-AA v2上拿到了1618分,直接反超Opus 4.8的1615。


在智能体搜索、工具使用表现中,Sonnet 5能以最低成本,提供了Opus 4.8级的能力。


突发,打工版Claude 5来了!人人都能用


突发,打工版Claude 5来了!人人都能用


可以说,几乎每项benchmark,Sonnet 5都落在Opus 4.8的90%到100%区间。


堪称是花Sonnet的钱,买Opus九成的脑子。


2美元限时促销


但埋了个大坑


价格,才是这次的「必杀技」。


API定价方面,Anthropic给出了限时大促:输入2美元/百万tokens,输出10美元/百万tokens。


8月31日之后,恢复输入3美元和输出15美元的原价。


相比之下,Opus 4.8是5美元和25美元,GPT-5.5标准版是5美元和30美元。


促销期内,输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。


突发,打工版Claude 5来了!人人都能用


不过,Anthropic虽然表面诚意满满,细节里却藏着小心思。


原因在于Sonnet 5换了全新的tokenizer,同样一段输入的token数量可能会膨胀1.0到1.35倍。


等促销期一过,$3/$15的原价再叠加tokenizer膨胀效应,真金白银的花销肯定要比用Sonnet 4.6肉痛一截。


但即便如此,跟Opus比依然是碾压级的差距。


反杀全家族旗舰


System Card里藏着Sonnet 5最被低估的一面。


提示注入攻击成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。


突发,打工版Claude 5来了!人人都能用


浏览器注入防御上,攻击成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。


$2的中端模型,反杀了全家族旗舰,开启防护措施后直接降到0%。


恶意代码注入上,Sonnet 4.6的攻击成功率高达45.26%,Sonnet 5降到了0.29%,改善150倍。


Firefox 147漏洞利用测试中,Mythos 5能写出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能写顶级业务代码,但写不出一个可用的漏洞利用程序。


突发,打工版Claude 5来了!人人都能用


副作用是不对齐行为评分2.53(满分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。


变强了,也变得更有主见了。


突发,打工版Claude 5来了!人人都能用


不争皇冠,专砍腰部


Sonnet 5卡在一个极其精准的位置上,向上能力逼近Opus 4.8和GPT-5.5,向下价格接近Gemini 3.5 Flash级别。


OpenAI刚把价格相较上代翻了倍,Anthropic转手把Sonnet 5的入门价压到了3美元。


那些原本犹豫要不要为旗舰付费的开发者,现在有了一个杀伤力十足的替代选项。


所有人都盯着顶端打的时候,Anthropic在腰部开了一枪。


开发者钱包,今晚先投了票


如今,Sonnet 5的性能已经踩进了旗舰区间,大部分修bug、补测试、做重构的活都能一次搞定。


以前觉得Opus太贵舍不得用、Sonnet又不够好的尴尬,今天没了。


价格上更划算。同样的预算以前只能跑一个Opus级的Agent,现在可以跑两到三个并行的Sonnet。


多Agent架构的成本门槛,被Sonnet 5一脚踹低了。


Fable 5究竟何时王者归来还是个未知数。


但Sonnet 5此刻已经稳稳地站在这里,性能直接怼到了Opus的门槛上。


对于绝大多数开发者而言,它就是接下来相当长一段日子里,手边最能打也最好用的那个Claude。


参考资料:


https://x.com/claudeai/status/2072017450611142835 


https://www.anthropic.com/news/claude-sonnet-5


文章来自于微信公众号 “新智元”,作者 “新智元”

AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md