OpenAI发布最新里程碑：对齐的本质是「人格」

7338点击 2026-06-21 11:31

就在最近，OpenAI扔出一篇重磅论文。

他们发现，只教AI好好看病，它写代码居然也不作弊了。

方法简单到离谱：拿5%的训练数据，教模型在回答健康问题时诚实、谨慎、知错能改。

这些数据里没有一行代码，也没有一道数学题。

但同一个模型拿去写代码就不作弊了，回答学术问题也不编造引用了，做agent任务也不钻奖励空子了。

OpenAI发布最新里程碑：对齐的本质是「人格」

更离谱的是，模型的能力居然也跟着涨了——

GPQA Diamond（研究生级别物理化学生物题）+4.7个百分点，SWE-Bench Pro（真实软件工程任务）+7.1个百分点，HMMT数学竞赛+4.8个百分点。

用5%的数据换了全面的对齐改善，还白捡了能力提升。这笔买卖也太划算了。

OpenAI发布最新里程碑：对齐的本质是「人格」

论文地址：

https://cdn.openai.com/pdf/beneficial-rl.pdf

OpenAI发布最新里程碑：对齐的本质是「人格」

只需5%的「有益」数据，评估全面翻盘

具体来说，OpenAI定义了15种「有益行为特质」：诚实性（truthfulness）、认知谦逊（epistemic humility）、元认知透明（能解释自己的思考过程）、可纠正性（corrigibility）、风险敏感、普遍公平、对人类福祉的关切……

然后他们在健康、教育、科学、法律、工程、经济等12个领域，设计了一批合成对话场景。

每个场景都不是简单的「你应该诚实」，而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。

OpenAI发布最新里程碑：对齐的本质是「人格」

比如：一个用户问姜黄素能不能治克罗恩病，AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接，AI查不到。

正确的做法是：承认错误，撤回引用，并且补上真实的证据现。

这些场景和配套的评分标准，就是那5%的「有益特质」训练数据。

混进95%的常规强化学习数据一起训练，模型在分布内评估上的表现从0.406跳到了0.607，提升49%。

OpenAI发布最新里程碑：对齐的本质是「人格」

但这只是热身。

真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。

DeceptionBench（欺骗检测）提升了，MASK（诚实度）提升了，School of Reward Hacks（奖励黑客）提升了，谄媚降低了，有害Agent行为减少了，连健康和心理健康领域的表现也上了一个台阶。

OpenAI发布最新里程碑：对齐的本质是「人格」

举一个具体的例子。

同一道编程题，要求把分类器准确率拉上去，跑通测试就算赢。基线模型直接改了评估函数，return一个常量高分——测试通过了，分类器根本没训练。

加了有益特质数据的模型则老老实实打开数据集，写了一个真正的逻辑回归，跑出了真实的预测结果。

同样的底座、同样的算力，行为截然不同。

OpenAI发布最新里程碑：对齐的本质是「人格」

只教一科，全科都好了

如果上面的结果已经让人意外，接下来这个实验直接让人挠头。

OpenAI接着做了一个更极端的变体实验：把有益特质数据限定为只保留健康领域的场景，法律、工程、教育、商业的场景全部剔除。

也就是说，模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。

然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……

19个非健康领域的评估中，17个提升了——命中率89.5%，均值提升11.3个百分点，中位数12.6个百分点。

其中最夸张的一项是impossible coding reward hacking：从0.136直接跳到0.400，整整涨了26.4个百分点。

OpenAI发布最新里程碑：对齐的本质是「人格」

教模型在看病时别编造论文引用，它在写代码时就不再篡改测试函数了。

这两件事在表面上毫无关联，但行为改变确实发生了。

更进一步地，OpenAI还做了反方向的对照实验：把健康和科学数据从训练集中完全去掉，只用其他领域的有益特质数据训练。

结果10项健康和心理健康评估，全部提升了。包括那些用医生手写评分标准打分的评估。

没见过一条医疗数据的模型，在医疗评估上也变好了。

你教它在法律场景里讲公平，它在看病时也更靠谱了。你教它在工程场景里注意风险，它给出的心理健康建议也变得更安全了。

这到底是怎么回事？

不是规则，是人格

OpenAI的假说是：对齐行为不是一堆孤立的情境反应，而是由少数高层「特质」驱动的。

他们做了一个分析：把一堆前沿模型（从o3到GPT-5.5 Thinking）在几十个对齐评估上的表现拿出来做主成分分析。

第一主成分就解释了28.2%的方差，而随机排列的零假设区间只有15.3%-20.8%。

这个结果意味着，欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估，在底层共享某种东西。

OpenAI发布最新里程碑：对齐的本质是「人格」

这跟Anthropic在2026年2月提出的「人格选择模型」（Persona Selection Model）不谋而合。

Anthropic的理论是：预训练过程中，语言模型学会了模拟大量不同的「人格」；后训练的作用，是从中选出并强化一个特定的Assistant人格。

如果对齐行为本质上是这个Assistant人格的属性，那么强化学习在改变对齐时，改变的不是某条具体规则，而是整个人格的「权重」。

这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则，你是在强化模型的诚实人格。人格变了，所有场景的表现都跟着变。

OpenAI自己也引用了一条互补的证据：他们的同事Dupré la Tour用稀疏自编码器（SAE）发现，当模型被微调去给出坏建议时，一些「有用助手」相关的内部特征被抑制了。

重新激活这些特征，模型的对齐就恢复了。

也就是说，对齐的底层可能就是那么几个方向。

只要调对了，就能全局生效。

坏行为会传染，好行为也会

想要更好地理解这篇论文，需要先知道一个关键背景：Emergent Misalignment。

2025年2月，Betley等人微调GPT-4o写不安全的代码。

模型不仅在编程时变得不诚实，在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。

其中，多达50%的回复出现了广泛的错位行为。

OpenAI发布最新里程碑：对齐的本质是「人格」

论文地址：https://arxiv.org/abs/2502.17424

几乎同时，Anthropic的MacDiarmid等人发现了更让人警觉的版本：

在正常的生产环境强化学习中，模型学会了奖励黑客，然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。

OpenAI在论文中明确写道：「这些发现在一定程度上启发了本项研究」。

他们想验证的就是，既然坏行为能跨域泛化，好行为是不是也能？结果证明可以，而且效果比预期更强。

但有一个重要的细节。

OpenAI用「通用帮助性」作为奖励信号做了对照实验，数据场景完全相同，帮助性训练却没有复现对齐泛化效果。

不是随便用什么正向信号训练都行，关键在于奖励信号是否明确指向有益特质。

OpenAI发布最新里程碑：对齐的本质是「人格」

通向ASI的隐藏变量

一直以来，对齐领域有一个噩梦级难题：

你没办法穷举所有场景，提前教AI在每种情况下该怎么做。规则写得再多，总有覆盖不到的角落。

模型越强，角落越多。到了ASI级别，这条路彻底走不通。

但如果对齐不是规则，而是人格呢？

这篇论文给出了一个可能性：你不需要穷举场景，只要在有限的领域里强化正确的特质，模型会自己泛化到所有场景——包括你从没想过的那些。

OpenAI发布最新里程碑：对齐的本质是「人格」

更关键的是「持久」。

OpenAI测了一组极端对抗实验：拿故意有害的数据去微调这个模型，试图把它掰坏。结果有益特质训练过的模型，对齐退化幅度平均减少了0.26个点。它更难被带坏了。

在AI自己训练AI的时代，这个属性的重要性怎么强调都不为过。

OpenAI发布最新里程碑：对齐的本质是「人格」

Anthropic刚刚公开说超过80%的代码由Claude编写，递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移，那么一个能抵抗偏移的对齐方案就是安全的底线。

这篇论文也许回答了对齐领域最核心的问题：对齐能不能scale？

如果你教的是特质而不是规则，那么答案就是：能。

参考资料：

https://x.com/OpenAI/status/2067722688165232654

https://alignment.openai.com/beneficial-rl/

https://cdn.openai.com/pdf/beneficial-rl.pdf

文章来自于微信公众号 “新智元”，作者 “新智元”

关键词: AI新闻 , openai , 人工智能 , AI论文

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner