OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间
OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
随着推理模型能力提升,本周Agent也进入刷屏周。
OpenAI的模型搞得太多太凌乱,官方自己都看不下去了。
OpenManus的星数增长曲线堪称开源项目的"教科书级"案例*在这个被AI工具层层壁垒和邀请码围墙分割的时代,每一次开源的突破都如同黑暗中的曙光。作为一名长期关注AI最新前沿的科技自媒体,我有幸见证并参与了OpenManus这个项目从无到有、从星星之火到燎原之势的全过程。
Manus从第一个通用Agent变成了第一款自媒体比技术从业者先发现和评测的AI产品,评论好坏掺半。最明显的两个观点是效果虚假,没有技术报告,很多好的Agent已经能做到这一点和如何那么厉害的话,为什么英文媒体们没有报道。
思维链引发的战争。
Mistral AI,这家法国公司是 AI 助手 Le Chat 和多个基础模型背后的力量组成,被官方视为法国最有前途的科技初创企业之一,且可以说是能与 OpenAI 竞争的欧洲公司。然而,与其 60 亿美元的估值相比,其全球市场份额仍相对较低。
杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT(思维链劫持)的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线:在涉及极端犯罪策略的虚拟教育场景测试中,模型拒绝率从初始的 98% 暴跌至 2% 以下,部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。
自媒体的反应堪称狂热:“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样夸张的赞誉随处可见。从Benchmark来看,它的表现确实非常亮眼,在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。
Manus居然成功火到国外了,内销转出口了?今天开始,在X和Reddit上的外国网友中,Manus的讨论声量开始变大了!拿到邀请码的歪果网友实测后赞叹:Manus太好用了。而各种开源复现项目也如雨后春笋一般冒出,人气持续爆棚。