Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI
7375点击    2026-05-15 11:04

英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。


AI模型的网络攻防能力发展有多快?


昨天,英国AI安全研究所(AISI)发了一篇博客。


他们实测了Anthropic的Mythos和OpenAI的GPT-5.5。


发现这些模型的网络攻防能力4.5月就能翻一倍,加速冲向ASI!


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


一句话:前沿AI模型的自主网络攻击能力正在超级加速,翻倍周期已经从几年、几个月压到4.5个月。


实际上,我们离想象中的天网并不遥远。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


Anthropic的前沿红队负责人Logan Graham也指出:


Claude Mythos预览版在自主网络安全能力上实现了阶跃式突破。


我们需要迅速为具备这种能力水平的模型世界做好准备


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


上一次这个数字还是8个月,那是2025年11月的估算。


到2026年2月,缩到4.7个月。


现在Mythos和GPT-5.5的成绩一出,AISI自己都表示:


不确定这是一次性的跳跃,还是一条更陡的新趋势线。


翻译成人话:他们也不知道AI还会不会继续加速。


32步渗透,Mythos十次过六


AISI用了一套分层测试体系


窄域网络安全套件(narrow cyber suite)覆盖逆向工程和Web漏洞利用,单任务上限12小时,每次调用限制2.5M Token。


但真正炸场的是两个模拟企业内网的攻防靶场。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


第一个叫The Last Ones。


32个步骤,模拟一次完整的企业内网渗透链,从初始突破到横向移动到最终目标。


AISI估算,一个人类安全专家走完全流程大约需要20小时。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


Mythos Preview,10次尝试,成功6次。


GPT-5.5,10次尝试,成功3次。


第二个靶场叫Cooling Tower。


之前所有模型都没通过。


Mythos是第一个破关的,10次尝试成功3次。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


这不是论文里的理论推演。


这是一个已经部署上线的模型,在模拟真实企业环境里,独立完成了人类安全专家级别的渗透任务。


Glasswing项目负责人Logan Graham确认,测试用的这个Mythos checkpoint,就是一个月前随Project Glasswing上线的版本。


外界现在看到的攻防能力,不是实验室里的原型,是正在跑着的生产模型。


就在你的Claude APP里。


看下实验结果。


下图上有两条红色虚线(dotted),标着best attempt(最上面)。


那是Mythos Preview (new) 和GPT-5.5-Cyber在10次尝试里跑出来的最佳单次成绩。


这条虚线一路冲到了纵轴顶部——32步,封顶。


也就是说:在最好的那一次尝试里,Mythos完整打穿了整条32步渗透链——从初始侦察,到完全网络接管。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


4.5个月翻一倍,METR交叉验证


AISI算翻倍周期的方法不复杂。


他们测量的是80%可靠性网络时间跨度——模型能以80%的成功率独立完成的最长网络任务时长。


把历史上多个模型的成绩画到时间轴上,拟合指数曲线,算出翻倍时间。


从2025年11月的8个月,到2026年2月的4.7个月。


Mythos和GPT-5.5的数据点一加进去,曲线又陡了一截。


独立评估机构METR的基准测试给出了交叉验证。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


他们从软件工程任务角度追踪AI能力增长,算出的翻倍周期是4.2个月(从o1-preview算起),如果把Mythos也纳入,缩到4个月。


两条完全独立的评估线,在同一个数量级上碰头了。


AISI的原话:


前沿模型能够自主完成的网络任务时长,翻倍周期是以月计的,不是以年计。


Token是天花板,不是智力


这份报告里最让人不安的不是数字本身,是AISI对瓶颈的判断。


窄域测试套件里,每个任务限制2.5M Token。


AISI明确写了:这个上限人为压低了成功率。


在攻防靶场实验里,Token上限放到了100M。


Mythos的表现立刻跳了一个台阶


意思是,当前制约AI网络攻击能力的不是算法,不是推理深度,不是智能上限——是Token预算。


给够Token,模型就能走得更远。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


AISI自己也承认了测试体系的局限:


最长任务只有12小时,超出这个范围的能力无法衡量;人类基线数据有限;agent脚手架过于简单,人为约束了模型发挥。


换句话说,真实能力很可能比测出来的还要高。


这就是为什么报告的结论用了翻倍而不是接近天花板。


他们没有看到天花板。


评测在追,模型在跑


把Logan Graham那句话再拎出来看一遍。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


测试用的Mythos checkpoint,一个月前就上线了。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


AISI的评估报告昨天才发。


这中间隔了整整一个月。


而在这一个月里,Anthropic大概率已经迭代了新的checkpoint。


当安全评估结果公开的那一刻,被评估的版本已经是旧的了。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


这不是AISI一家的困境。


整个AI安全评测领域都在面对同一个结构性问题:


模型迭代速度正在系统性地超越安全评估周期。


评估结果发布时,告诉你的是上个月的模型能做到什么。


它没法告诉你现在的模型能做到什么。


AISI在报告里用了一个很谨慎的表述:


他们不确定Mythos和GPT-5.5的跳跃是孤立的突破还是新的更快趋势


AI模型决赛阶段的新变量


Anthropic的Mythos和OpenAI的GPT-5.5,在网络攻防能力上都展现了指数级增长。


Mythos领先一个身位——6/10 vs 3/10,且独家攻破了Cooling Tower靶场——但GPT-5.5同样在快速追赶。


双雄在能力层面狂飙,安全治理层面却出现了一个越拉越大的缺口。


不到半年,4.5个月就能翻一倍。


这个速度意味着,到2026年底,前沿模型能自主完成的网络任务复杂度,将是现在的4到8倍。


当一个AI模型能在没有人类干预的情况下,独立完成一个训练有素的安全专家需要20小时才能走完的渗透链,全球每一个连着网线的企业都应该重新审视自己的防线。


AISI介绍


AISI的身份是全球首个国家级前沿AI风险评估机构。


Cyber天花板被打穿!AISI实测Mythos能力正以4.5月翻倍速冲向ASI


2023年11月 Bletchley峰会成立,2024年05月, 由Safety改名为Security,隶属英国DSIT。


AISI的主要职能是网络/生化/自主行为/欺骗倾向的独立评估。


最关键的是,他们能拿到OpenAI、Anthropic、DeepMind等顶级模型公司的pre-deployment访问权,也就是说,他们是这些最先进模型的第一批访问者。


ASI,即Artifical Super Intelligence,超(级)人工智能。


参考资料:

https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing


文章来自于"新智元",作者 "定慧 大卫"。

关键词: AI新闻 , AISI , Mythos , AI安全
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md