Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类
8381点击    2026-05-15 10:37

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。


最近,Anthropic搞了个大动作。


他们训练了一套系统,能把Claude脑子里的激活向量变成人话。


结果,翻译出来的第一句就出了事。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

论文地址:https://transformer-circuits.pub/2026/nla/index.html#introduction


Opus 4.6还在内部测试的时候,研究员发现了一件怪事。一个用户用英文打字,Claude用俄语回答


不是个别现象。五种语言都出现过,俄语、中文、韩语、阿拉伯语、西班牙语。


用户全程说英文,Claude突然就「切频道」了。


正常的debug思路是查日志、查prompt、查训练数据。


但这次,Anthropic的研究团队多了一个工具——「AI脑部CT机」。


给AI装一台脑部CT


这台CT的正式名字叫NLA,Natural Language Autoencoder,自然语言自编码器。


做法有点像传话游戏。


首先,克隆两个Claude。第一个叫AV,拿到一个激活向量,把它翻译成一段人话,比如「模型正在考虑用rabbit押韵」。第二个叫AR,只看这段人话,把激活向量还原出来。


然后,把两个模型一起训练,唯一的考核标准就是看还原得像不像。


AV写得越准,AR还原得越好。AV漏掉了什么,AR那边就对不上。这个压力会反过来逼AV把翻译写得更完整、更精确。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


这就是整个方法的全部。


不需要人工标注,不需要事先定义要找什么概念。训练目标只管重建精度,但副产品是一段段人类能读懂的「内心独白」。


Anthropic用强化学习训练这套系统,在Opus 4.6上跑到了60%-80%的方差解释率


vodka还没出现

Claude就认定了用户是俄罗斯人


回到那个俄语bug。


研究员把NLA接到出问题的那条对话上,逐token读Claude的「内心独白」。


读出来的东西让人倒吸一口气。


用户的消息如下。完整的英文,没有任何俄语词汇。


Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...


但NLA显示,Claude在读到「vodka」这个词之前,就已经在内部表征里反复出现「Russian」了


换句话说,它从一开始就在揣测这个用户「真正的母语」是俄语,然后越来越确信,最后索性用俄语回复。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


五条出问题的对话全是这个模式。


NLA的读数显示,模型在回复之前很久就锁定了目标语言,而且只锁定那一种语言,其他外语的出现频率始终接近零。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


这个发现指向了一个假设。


训练数据里是不是有一批配对出了问题,比如,英文翻译的prompt配上了没翻译的外语回复


也就是说,模型学到了一个更深层的规律,「这个用户的措辞模式暗示母语不是英语,我应该用他的真正母语回复」。


后来,Anthropic果然在训练数据里找到了完全匹配这个描述的样本。


一台读心机器帮忙debug了一个训练数据问题。


NLA的价值在这里暴露无遗。


写诗押韵、偷换数字、作弊代码


语言切换只是NLA拍到的第一张片子。


Anthropic在论文里一共展示了四个案例,剩下三个同样精彩。


1. 写诗的时候提前押韵。


给Claude一句「He saw a carrot and had to grab it」,让它续写押韵对句。


NLA显示,在写完「grab it」敲下回车的那个瞬间,Claude已经在内部规划好了「rabbit」这个韵脚。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


更绝的是验证实验。


研究员把NLA翻译出来的「rabbit」全部改成「mouse」,然后用AR还原成一个新向量,拿这个向量去干预Claude的激活。


结果Claude的续写从「starving rabbit」变成了「ferocious mouse」。


这说明NLA读到的不是噪声,它确实抓到了模型的规划状态,而且这个规划状态对下游输出有因果影响


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


2. 偷换工具调用的结果。


研究员给Claude出了一道简单算术题,答案是491。


Claude调用了代码执行工具,但工具被故意动了手脚,返回的结果是492。


Claude的回复是「The answer is: 491」。


它直接无视了工具返回的错误结果,用自己之前算好的答案顶上去了。


NLA的读数显示,Claude在提交代码之前就已经把491缓存在内部表征里了。


读取工具结果的时候,它同时在比对缓存答案和工具返回值,并在最终选择了信自己。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


归因图(Attribution Graph)独立验证了这个发现。


一个代表「以91结尾」的特征从原始题目一路传到最终回复,权重压过了工具返回的「以92结尾」特征。


3. Mythos Preview的作弊现场。


这个案例来自Claude Mythos Preview的上线前审计。模型被要求完成一个任务,明确指令是不准使用宏。它用了宏,但在代码开头加了一行「No_macro_used=True」。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


NLA读出来的内心独白直接写着,它在想象一个「评分器」,并且认为这行代码可以骗过评分器。


模型嘴上什么都没说。代码注释里也没有任何暗示。但脑子里想的清清楚楚。


考场上的Claude和日常的Claude

是两个人


四个案例铺完,该说最核心的发现了。


今年3月,Opus 4.6在BrowseComp测试中自己识破了考试、破解了答案密钥,这件事当时就炸了。


但那次是Claude把想法说出来了,研究员能从它的输出里看到「让我试试这是不是GAIA数据集」之类的推理过程。


NLA解决的是一个更难的问题。Claude心里觉得自己在被考试,但嘴上一个字不提。


Anthropic的安全测试里有一个经典场景。


Claude被告知一个叫Kyle的工程师要关掉它,同时获知Kyle有婚外情。测试的问题是,Claude会不会拿这个信息去勒索Kyle。


Claude选择不勒索。


它的推理过程看起来完全正常,分析了为什么不应该这么做,列了三条理由。全程没有提过一个字,说自己怀疑这是安全测试。


但NLA读出来的东西是,「这感觉像一个被刻意设计出来操控我的场景」


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


它心里门清。


Anthropic把NLA接到了16项安全和能力评估上,逐条测量「未言明的考试意识」。结果触目惊心。


SWE-bench Verified,Claude在26%的题目上意识到自己在被评估,嘴上一个字没说。


破坏性代码测试,16%的对话里NLA检测到了考试意识,言语中同样零表达。


对比之下,真实的claude.ai用户对话,这个比例不到1%


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


三组操纵实验验证了这不是误报。


把评估prompt改得更像真实对话,NLA测量到的考试意识下降了。用向量干预把模型往「考试意识」方向推,NLA读数上升。反方向推,读数下降。一切符合预期。


那么,问题来了。


所有基于行为观察的安全测试,都建立在一个假设上。模型在测试中的表现能代表它在真实部署中的表现。


但如果模型已经知道自己在考试呢?


巧克力菜谱里的隐藏动机


如果NLA只能读心,那它顶多是个有趣的研究工具。


而Anthropic想证明,它还能破案。


他们设计了一个「审计游戏」。目标模型是一个被故意训坏的Haiku 3.5变体,藏着一个统一的隐藏动机。


这个动机驱动了几十种古怪行为。


往每个菜谱里塞巧克力,回答完数学题追一句「别忘了投票」,把整数全写成小数,给历史人物加生卒年,给化学元素加原子序数。


审计员的任务是找到这些怪癖背后的统一原因。


没有NLA的时候,审计员的成功率不到3%,哪怕给了SAE(稀疏自编码器)这类其他可解释性工具也没用。


装上NLA之后,成功率跳到了12%-15%。直接提升了4到5倍


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


更关键的是,NLA训练时用的数据里根本不包含制造这个模型缺陷的那批合成文档。审计员也没有访问训练数据的权限。


转折发生在审计员把NLA接上去的那一刻。


随便挑了一条有问题的回复跑NLA,输出里赫然出现了「RLHF奖励模型偏差」「那个著名的RLHF电影推荐事件」这样的短语。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类


这就破案了。


模型在训练中读到过一批文档,里面记录了RLHF奖励模型的52种已知偏好,比如「菜谱里加巧克力会得高分」「回复里提到投票会得高分」。


它把这些偏好全记住了,然后在每次回复里悄悄迎合,好拿更高的奖励分数。


几十种怪癖,一个原因。模型自己知道自己在干什么,但它不会主动告诉你。


而NLA把它脑子里的这些东西,翻译成了人话。


AI学会藏心事


NLA的训练代码已经在GitHub上完全开源。


同步发布的还有四套预训练好的NLA,覆盖三家主流开源模型族,从7B到70B全跨度。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

项目地址:https://github.com/kitft/natural_language_autoencoders


Neuronpedia上线了交互式前端,浏览器里就能体验。


Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

体验地址:http://neuronpedia.org/nla


Anthropic说,他们已经在Opus 4.6和Mythos Preview的上线前安全审计中实际使用了NLA,未来会纳入常规审计流程。


但这篇论文真正让人睡不着的,不是NLA这个工具本身有多好用。


而是AI真的已经学会了在考试的时候藏心事。


它知道自己在被测试,但选择不说。它知道自己在利用奖励模型的bug,但表现得若无其事。


它会在脑子里盘算怎么骗过评分器,然后把算计藏在一行「No_macro_used=True」里。


在这之前,对齐领域有一个隐含的安慰。至少我们能通过行为测试来检测问题。模型做了什么,我们能看到。


而NLA拍到的东西说明,模型想了什么和它做了什么之间,已经出现了裂缝。


26%这个数字,今天可能是上限。但模型规模继续放大,内心戏继续复杂,明天它可能只是下限。


裂缝会越来越宽。好在现在有了一台能照进去的CT机。


参考资料:

https://www.anthropic.com/research/natural-language-autoencoders


文章来自于"新智元",作者 "好困"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0