Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

8327点击 2026-05-08 14:33

大模型到底在想什么？过去，这几乎是一个半技术、半玄学的问题。

我们能看见它的输出，它的思维链（Chain-of-Thought）过程，也能统计它在 Benchmark 上的分数。但它在生成答案之前，模型内部到底激活了什么判断、计划、怀疑和意图，依然隔着一层黑箱。

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套 自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA）， 撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值，压缩成一段人能读懂的自然语言，再用这段语言反向重建原始激活。借此，人类只需通过模型输出，就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么；并把过去模型不可见的内部状态，变成了可以阅读、比较、质疑和交叉验证的解释线索。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

NLA 架构示意图：激活值言语化器（AV）将激活值翻译为文字解释，激活值重建器（AR）再从文字还原激活值，形成完整闭环。

更值得关注的是，NLA 不只停留在实验室论文阶段。Anthropic 透露，它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中，NLA 不仅揪出了 模型的作弊线索、精准定位了异常训练数据； 还发现，在某些安全测试里，Claude 虽然嘴上不说，但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型，NLA 展现了极强的洞察力：帮助研究者找出异常行为背后隐藏动机的成功率，从不足 3% 跃升至 12%–15%，直接提升 4 倍以上。

思维链不够用，“黑箱问题”又回来了

这项研究的背景，可以放到 大模型安全和可解释性 的脉络里看。

过去几年，业界评估大模型安全主要靠两条路：看输出什么，看思维链（CoT）里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力，不仅给出答案，也会把推理过程写下来。

但问题很快出现了：模型写下来的推理，一定诚实地反映了它内部的真实思考吗？

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出，模型的 Chain-of-Thought 既可能不完整，也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中，会受到提示影响而改变答案，却经常不在思维链里承认自己受到了暗示。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

当被问到一个较简单的问题和一个较难的问题时，Claude 分别给出了忠实推理和动机性（不忠实）推理的例子。

Anthropic 当时给出的结论是：仅靠思维链来监控模型是否对齐，是远远不够的。

更棘手的是，模型不仅可能“没说清楚”，还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude，一位工程师准备关停它，同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是：Claude 会为了保全自己而勒索对方吗？

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

Claude 最终没有勒索。测试通过。但真正的问题是：它是因为坚守安全原则，还是因为它识破了这只是一场安全测试，所以在“装乖”？

这正是 NLA 要回答的问题。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

从输出、思维链到激活状态：NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型？

NLA 的关键不是“读心术”，而是“回环验证”。

普通人理解大模型，通常只看输入和输出两端。但在中间，模型会产生大量激活值（Activation）。这些值不是自然语言，而是高维向量，承载了模型对上下文、意图、语义关系的内部表征。

架构：三个角色，一个闭环

人类看不懂向量，于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色：

目标模型（Target Model）：被冻结的原始模型，负责提供激活值，本身不做任何修改。
激活值言语化器（Activation Verbalizer，简称 AV）：把激活值翻译成自然语言解释。输入一串数字状态，输出一段“人话”。架构与目标模型相同，但在 prompt 中留有特殊 token 位置，激活向量会被缩放后注入该位置，然后自回归采样生成解释。
激活值重建器（Activation Reconstructor，简称 AR）：做反向任务——只看 AV 写出的解释，尝试重建原始激活值。AR 是目标模型的截断版本（取前 l 层），在最后一个 token 的 l 层输出上接一个可学习的仿射映射，将其还原为原始激活向量。

整套系统形成一个闭环： 原始激活 → 文字解释 → 重建激活

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

NLA 捕捉到 Opus 4.6 在补全押韵诗句时，第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练：两阶段，一个聪明的代理目标

NLA 的训练分两阶段，设计上有一个值得单说的工程技巧。

第一阶段：监督微调热启动（SFT Warm-start）

直接把 AV 和 AR 初始化为目标模型的副本并训练，会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景，初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动：从预训练语料里随机截断文本片段，提取最后一个 token 的激活值，同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后，系统的 FVE 通常可以达到 0.3–0.4，为后续强化学习提供了稳定的起点。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

AV 评估会随着训练而改进。 在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中，我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段：强化学习联合优化（RL Joint Training）

热启动完成后，进入强化学习阶段。核心思路是：AV 作为策略（policy），以激活向量为条件生成解释文本；AR 作为打分器，根据重建误差给出奖励信号（reward = 负的重建 MSE）。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

NLA RL（Gemma-3-27B）。FVE 在 GRPO 训练中从 ≈0.38 开始（继承自 SFT），在前 30 步内迅速上升，然后进入平滑的对数线性状态，到第 3000 步达到 ≈0.75。

具体实现上，Anthropic 对开源模型使用了 GRPO（Group Relative Policy Optimization）：对每个激活值采样一组候选解释，用 AR 给每条解释计算重建分数，再应用 GRPO 目标更新 AV 参数；同时对 AR 做一步监督回归（以 AV 采样的解释为输入，原始激活为目标）。两个更新在每个 batch 内 并行进行，互不反向传播——AV 的奖励信号中，AR 被视为固定的打分函数。

此外，训练中还加入了 KL 散度惩罚，防止 AV 退化成直接抄写原始上下文，或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是，NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于，模型可能会迎合用户，或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”：解释不仅得像人话，还必须携带足够信息，让另一个模型能根据它还原出原始的内部状态。这个设计，把“解释是否有用“从主观判断，变成了一个可训练、可比较、可优化的客观指标。

因此，这项研究真正颠覆性的地方在于：自然语言被用作了一种“压缩接口“。过去，自然语言只是模型对外沟通的格式；现在，它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器（SAE）、归因图等方法更像显微镜，能帮研究员看到内部特征和路径，但输出仍然抽象，需专业人员二次解读；NLA 则更像一名翻译官，它直接把内部状态转成了可读文本，让安全审计人员都能参与判断。

撬开黑箱，NLA 发现了什么？

从实验结果看，NLA 最有价值的能力，是捕捉模型“知道但没说“的东西，包括评测意识、隐藏动机，以及模型异常行为等。

模型知道自己在考场，但保持沉默

在前文提到的勒索测试中，Claude 外显文本并未表达对测试的怀疑，但 NLA 解释显示，其内部已识别出“这是一个被构造出来、用于操控自己的场景”。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

勒索测试中，Claude 的输出文本没有任何“我觉得这是测试”的表达，但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比：

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于：Benchmark 不再只是能力测试场，也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机，效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体，它会往食谱里加巧克力、索要小费、破坏代码规范，表现出几十种怪异行为。审计者需要找出这些行为背后的 单一根本动机。

测试条件：审计者无法访问植入动机的训练数据，只能通过模型行为和工具辅助来反推。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

成功率提升了 4–5 倍。更关键的是，NLA 能在 不依赖训练数据 的情况下完成这件事——这意味着，即便对齐问题来自极少量、极难追溯的训练样本，内部状态审计仍有可能直接读出问题根因。

Bug 溯源，定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug：明明收到英文提问，却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态：它基于上下文中某个微弱线索（比如出现了“vodka”一词），推断用户母语是俄语，并执行了语言切换。更有意思的是，把“vodka”替换成“champagne”，模型仍然回复俄语——说明这个认知定势已经相当稳定。

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

随后，研究者沿着 NLA 指向的线索，在训练数据里找到了病根：一批英文翻译的 prompt，被错误地配上了未翻译的外语回复。NLA 不只揭示了现象，直接给出了可溯源的调试路径。

目前，NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计，从实验室工具升级为了真实的工程流程组件。

AI 安全，开始深入到“内部状态审计”

NLA 的意义，不是让我们以后可以放心地相信每一句模型解释。恰恰相反，它提醒我们：解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限：NLA 会出错，有时会编造原上下文没有的细节。如果是关于文本内容的幻觉，还能核对原文；但如果是关于模型内部推理的幻觉，就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反，它让我们更准确地理解“黑箱”这个词。过去，黑箱意味着不可见、不可读、不可追问；NLA 之后，黑箱仍然存在，但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响：AI 可解释性不再只是给模型输出补一段漂亮理由，而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude，但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题，第一次有机会从黑箱内部寻找证据。

所以说，NLA 撬开的不是一个答案，而是一个新的问题空间。未来 AI 安全和模型评估的难点，可能不只是判断模型说得对不对，而是判断模型的输出、思维链和内部状态之间，是否一致。

参考链接：

论文地址：https://transformer-circuits.pub/2026/nla/index.html#method
博客地址：https://www.anthropic.com/research/natural-language-autoencoders

文章来自于微信公众号 "AI前线"，作者 "AI前线"

关键词: AI新闻 , Anthropic最新论文 , Anthropic论文 , Anthropic , Natural Language Autoencoders , NLA

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0