全错!谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸
全错!谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。
Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。
昨晚,一个 X 上的泄露账号曝光了 Claude Code 即将上线的更新:截图验证、安全扫描、设计探索、暗黑模式、登录系统、跨多个代码仓库的统一工作界面。网友们的评价是:「这可能是 Lovable 的全栈竞争对手」,危险危险危险。
从春节开始,能直接操控电脑替人干活的开源项目 OpenClaw(网友戏称龙虾)在科技圈彻底爆火。
五天,五个版本号 —— 从 v2026.4.7 到 v2026.4.11,开源个人 AI 助手 OpenClaw(龙虾)在 GitHub 上完成了一轮堪称「火力全开」的密集迭代。记忆系统重构、安全加固、多平台通道修复、视频生成接入、本地语音推理…… 几乎每一个版本都塞满了重量级更新。
养龙虾最怕什么?上一秒喂财报,下一秒全上云!刚刚,无问芯穹推出全模态「龙虾盒子」InfiniClaw Box,文字、语音、视频全模态无死角加密,让云端满血AI为你贴身打工。
最近,计算机视觉领域的顶级会议 CVPR 2026 的 NTIRE 鲁棒性 AIGC 图像检测挑战赛( Robust AI-Generated Image Detection in the Wild Challenge )结果出炉。蚂蚁集团 AI 安全实验室的队伍 MICV 凭借在鲁棒性测试样本上 ROC AUC 达到了惊人的 0.9723,成功摘得「复杂真实场景鲁棒性样本测试」挑战赛的冠军。
据彭博最新报道,美国财长贝森特与美联储主席鲍威尔于本周二在华盛顿财政部总部紧急召集华尔街主要银行CEO开会,会议核心议题是Anthropic最新AI模型Mythos可能带来的网络安全威胁。
Claude Mythos太猛了。
我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy
和之前 Claude Code 泄漏的代码揭示的一样,Claude Mythos 它真的来了。今天凌晨,Anthropic 发布了大量关于其新模型 Claude Mythos Preview 的信息(包含一份长达 244 页的系统卡)。同时,Anthropic 还宣布了一个基于此模型的 AI 网络安全项目 Project Glasswing。