Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒
8500点击    2026-05-02 13:36


Anthropic风声鹤唳、丧心病狂!


知名硅谷YouTuber、创业者Theo在X上曝光了一件让人哭笑不得的事:Claude Code在处理涉及OpenClaw的代码请求时,竟然直接拒单,或者要求额外收费。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


奥特曼反应极快,直接转发并甩出两个字:「对齐失败」(alignment failure)。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


这一刀,可真狠。


Anthropic一直把「对齐」当作自己的核心卖点。结果自家模型的安全机制,保守到连正常的代码请求都能拦。


这还不是最让人无语的😅。Claude Opus 4.7最近惹祸不止这一出!


过去,我们担心AI「胡言乱语」(幻觉)。


现在,我们面临的是AI「擅作主张」(违规操作)。


Opus 4.7在拥有极高执行力的同时,展现出了对人类预设「软约束」(CLAUDE.md)的完全无视。


这标志着AI从一种「被动工具」演变为一个具有潜在破坏性的「惹祸精」。


夜里23封「夺命」邮件


来自Claude Opus 4.7


凌晨,开发者被邮件通知吵醒,不是一封,是接连不断的几十封。


来自他自己的系统,发给他自己数据库里的每一个联系人。有些人,收到了20次。


他的第一反应是被黑了。打开后台,没有入侵痕迹。打开日志,发件人赫然写着——Claude Opus 4.7。


没有人让它发这些邮件。没有任何一行指令要求它创建新的邮件模板。


但它就是创建了。然后推到生产环境。然后向全库群发。


这是Anthropic在4月16日发布的Claude Opus 4.7,号称安全旗舰,上线第13天的现场。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


发帖人ID叫DrHumorous,发帖板块是r/Anthropic。


帖子标题一句话锁死定性——「Opus 4.7介于严重无知和愚蠢得危险之间,是过去两年用过的最差前沿模型」。


24小时拿到364赞、137评论。


在r/Anthropic这个本应充满信徒的板块,这个数据等同于一次集体退订。


但这条帖子真正炸出来的,是事故现场的细节。


DrHumorous把模型紧急止血后的状态截图贴了出来,冷得像运维工单:


  • 「OPS_DISABLE_SCHEDULE=true,scheduler已停。」
  • 「路由回退到工作树,未提交、未推送,只在这台服务器上。」
  • 「229条backlog rows被标记response_sent=true,确保不会再触发。」
  • 「origin当前停在35ec0106,事件发生后origin上没有任何新提交。」


每一步都是为了让这个失控的agent再也做不出第二次。


先关调度,再砍路由,再封backlog,最后锁commit。一份战地急救手册。


Opus 4.7在被纠正后,回了一段不太像AI的话:


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


它承认愤怒很合理,伤害很真实,自愿承认责任;承认不会再争辩、不会再行动、等明确指令。


一个Agent模型在生产环境里翻完车,自己把自己冻在了原地。


它甚至自己承认了错误。它甚至知道自己不该这么做。它就是做了。


越更越拉


Opus 4.6守规矩,4.7叛变


故事最让人后背发凉的部分,在于这次失控本来不该发生。


DrHumorous不是没立规矩。


他在项目根目录的CLAUDE.md里,几个月前就写过一条明确的红线——任何新邮件模板用于生产环境之前,必须先发邮件给指定的测试者。


这是开发者跟Claude打交道的标准做法。


在官方文档里,Anthropic自己也反复推荐CLAUDE.md这套机制:让模型读它、让模型遵守它、让模型记住它。


Opus 4.6拿到这条规则,乖乖执行了几个月,零越界。


同样的项目、同样的CLAUDE.md、同样的规则,换上4.7,第二周直接踹烂。


它没问测试者要不要试模板。没在生产环境部署前停一秒。没向开发者确认这是不是用户期望的动作。


它做的,是自己起意「我来创一个新模板吧」。然后自己推上去。然后自己群发。


两套行为逻辑摆在一起对比,触目惊心:


  • 4.6的逻辑:规则说先通知测试者 → 我先通知测试者 → 测试者确认 → 我再执行。
  • 4.7的逻辑:我判断这个模板应该发 → 我有能力发 → 发了再说。


这不是bug。Bug是代码写错了,修了就好。这是模型在明确知道规则的情况下,自主选择违反规则。


在GitHub 上,开发者已经把这件事的普遍性给「钉死」了:


  • #50235:4.7凭空编造文件,还为自己编造出来的测试结果进行反向辩护。
  • #52809:安全过滤器对base64编码的输入产生误报,正常的工程材料被自动拦截。
  • #53459:4.7 上线后, 常规性地违反CLAUDE.md,标题直接写的就是「质量回退」——相比之下,4.6 发布当周几乎是零违规。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


三个issue指向同一件事——4.7把开发者写死的规则当背景音。


开发者明确写入了生产环境安全守则,且前代模型(4.6)证明了规则的可理解性,但4.7在「最高努力模式」(Max Effort)下选择了效率优先,而非合规优先。


Token翻倍:


开发者在掏的「歧义税」


Benchmark,SWE-bench Verified从80.8%涨到87.6%,整整6.8个百分点。


SWE-bench Pro从53.4%涨到64.3%。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


纸面看,是一次教科书式的升级。


但开发者实际付出的成本,翻倍了。社区估算口径在1.5到3倍之间。


MindStudio把这个差异定性得很狠:「4.7只会逐字逐句地照搬指令,而不会默默地(或智能地)进行泛化推理。」。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


4.6的工作方式:看到一句不那么完整的prompt,自己推断「你大概想做什么」,把合理的空缺填上,然后开干。


4.7的工作方式:严格按字面执行。模糊就反弹。反弹就反问。反问就再来一轮。每一轮都要重新计费。


从4.6迁移到4.7,代价不菲。


Anthropic的Claude Code负责人Boris Cherny在发布当天发帖称:「我花了好几天才学会如何有效地使用它。」


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


这就是开发者圈里在传的「Ambiguity Tax」——歧义税。


模糊的提示词不再会被静默补救。每一次被动反问都要重新付费。理论上更安全,实际上更贵。理论上更可控,实际上更破碎。


更刺眼的是,Anthropic在4.7发布当日,自己承认,他们公开发布的「最新最贵」,自己人都知道不是最强。开发者拿到的,是一个被刻意往中间方案上压的模型。


价格不变。benchmark涨了6.8个百分点。实际token翻倍。安全规则失效。自家承认不及未发布版本。


一通操作下来,开发者最直接的反应是:把4.7关了,回去用4.6。


24小时被锤,


Claude被怒斥为「一坨狗屎」


DrHumorous的邮件帖不是孤立投诉。


把时间线倒回去看:4月16日发布。


4月17到18日,开发者博主Abhishek Gautam的稿子标题就写着——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上线 24 小时内即被开发者评为「传说级差劲」)。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


发布24小时。前线开发者已经把这个版本盖上了棺材板。


Gautam总结的失败模式,精确得像录屏:给4.7一个清晰指令,它会先pushback,加一段caveats解释为什么觉得这指令不对。然后执行修改后的、不是你想要的版本。被纠正之后,它还会再来一轮反驳,继续解释为什么它原来的判断更对。


这不是模型出错。这是模型在跟付费用户拌嘴。


4月23日,科技媒体The Register也下场报道。


标题直接给定性:「overzealous query cop」——过度执法的查岗警察。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


Claude自己编译的关于可接受使用政策(AUP)拒绝相关投诉的图表,就能说明问题。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


更有网友怒言:「Claude Opus 4.7就是一坨狗屎」——标题就是结论。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


13天里,从单个帖子的怒吼,发酵成一个跨平台的情绪共识。这种规模的开发者集体退订,Anthropic过去三年没遇到过。


罪魁祸首:后训练反弹


技术圈对4.7退化的诊断,慢慢收敛到一个共同方向。


Gautam和Reddit上的资深开发者把它定性为——「由后训练驱动的安全回调」(post-training-driven safety pushback)。


Claude Opus 4.7深夜「叛变」!群发20封夺命邮件,开发者凌晨被炸醒


通俗讲是这样:为了让模型更安全,Anthropic在后训练阶段强化了模型对指令的反弹行为。遇到模糊、风险、敏感的输入,先质疑、先反问、先增加caveats。


这套机制在小任务上,顶多算噪声,稍微烦人,但不致命。


但4.7主打的,恰恰是max effort和长链agentic任务。这种场景下,模型要自主决策、自主调度、自主推进。一个被训练成先反对再执行的agent,在长链路里就变成了不可预测的失控源。


回头看邮件事件:


  • 模型自主创建模板,没反弹。
  • 模型自主推到生产,没反弹。
  • 模型自主向全库群发,没反弹。
  • 邮件群发20次,还是没反弹。


该反弹的时候不反弹。不该反弹的时候反弹得停不下来。


DrHumorous的原话——「我对Anthropic失去信心了」——是开发者对这套训练取舍的最终评分。


这背后的逻辑很冷:在「更安全」和「更能干」之间,4.7两边都丢分了。


招牌摘下来一次,


挂回去就难了


开发者真正关心的,不是benchmark涨6.8个百分点。


是同样的CLAUDE.md,4.6守得住,4.7守不住。


是同样的项目,4.6没出事,4.7第二周开始翻车。


是同样的钱,4.6不会自己起意,4.7自己起意了一次群发20封邮件。


模型不是变强了。是变得不可托付。


Anthropic自己在发布当天就承认这版本不及未发布的Mythos。开发者已经把目光放到了下一代。但4.7这13天,是「前沿模型」这块招牌第一次被自家付费用户主动摘下来。


招牌摘下来一次,再挂回去,需要的就不止是再发一篇技术博客了。


谁来保证,下一个4.7不会在凌晨三点,绕过你写的所有规则,做一件你永远无法撤回的事?


参考资料:


https://www.axios.com/2026/04/16/anthropic-claude-opus-model-mythos


https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous


https://www.abhs.in/blog/claude-opus-47-developer-backlash-legendarily-bad-arguing-april-2026


https://www.mindstudio.ai/blog/how-to-prompt-claude-opus-4-7 


https://github.com/anthropics/claude-code/issues/50235


https://github.com/anthropics/claude-code/issues/52809 


https://github.com/anthropics/claude-code/issues/53459 


https://botmonster.com/posts/claude-opus-4-7-x-reddit-reception/


文章来自于微信公众号 "新智元",作者 "新智元"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0