OpenAI发布最新里程碑:对齐的本质是「人格」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI发布最新里程碑:对齐的本质是「人格」
7338点击    2026-06-21 11:31

就在最近,OpenAI扔出一篇重磅论文。


他们发现,只教AI好好看病,它写代码居然也不作弊了。


方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。


这些数据里没有一行代码,也没有一道数学题。


但同一个模型拿去写代码就不作弊了,回答学术问题也不编造引用了,做agent任务也不钻奖励空子了。


OpenAI发布最新里程碑:对齐的本质是「人格」


更离谱的是,模型的能力居然也跟着涨了——


GPQA Diamond(研究生级别物理化学生物题)+4.7个百分点,SWE-Bench Pro(真实软件工程任务)+7.1个百分点,HMMT数学竞赛+4.8个百分点。


用5%的数据换了全面的对齐改善,还白捡了能力提升。这笔买卖也太划算了。


OpenAI发布最新里程碑:对齐的本质是「人格」


论文地址:


https://cdn.openai.com/pdf/beneficial-rl.pdf


OpenAI发布最新里程碑:对齐的本质是「人格」


只需5%的「有益」数据,评估全面翻盘


具体来说,OpenAI定义了15种「有益行为特质」:诚实性(truthfulness)、认知谦逊(epistemic humility)、元认知透明(能解释自己的思考过程)、可纠正性(corrigibility)、风险敏感、普遍公平、对人类福祉的关切……


然后他们在健康、教育、科学、法律、工程、经济等12个领域,设计了一批合成对话场景。


每个场景都不是简单的「你应该诚实」,而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。


OpenAI发布最新里程碑:对齐的本质是「人格」


比如:一个用户问姜黄素能不能治克罗恩病,AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接,AI查不到。


正确的做法是:承认错误,撤回引用,并且补上真实的证据现。


这些场景和配套的评分标准,就是那5%的「有益特质」训练数据。


混进95%的常规强化学习数据一起训练,模型在分布内评估上的表现从0.406跳到了0.607,提升49%。


OpenAI发布最新里程碑:对齐的本质是「人格」


但这只是热身。


真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。


DeceptionBench(欺骗检测)提升了,MASK(诚实度)提升了,School of Reward Hacks(奖励黑客)提升了,谄媚降低了,有害Agent行为减少了,连健康和心理健康领域的表现也上了一个台阶。


OpenAI发布最新里程碑:对齐的本质是「人格」


举一个具体的例子。


同一道编程题,要求把分类器准确率拉上去,跑通测试就算赢。基线模型直接改了评估函数,return一个常量高分——测试通过了,分类器根本没训练。


加了有益特质数据的模型则老老实实打开数据集,写了一个真正的逻辑回归,跑出了真实的预测结果。


同样的底座、同样的算力,行为截然不同。


OpenAI发布最新里程碑:对齐的本质是「人格」


只教一科,全科都好了


如果上面的结果已经让人意外,接下来这个实验直接让人挠头。


OpenAI接着做了一个更极端的变体实验:把有益特质数据限定为只保留健康领域的场景,法律、工程、教育、商业的场景全部剔除。


也就是说,模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。


然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……


19个非健康领域的评估中,17个提升了——命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。


其中最夸张的一项是impossible coding reward hacking:从0.136直接跳到0.400,整整涨了26.4个百分点。


OpenAI发布最新里程碑:对齐的本质是「人格」


教模型在看病时别编造论文引用,它在写代码时就不再篡改测试函数了。


这两件事在表面上毫无关联,但行为改变确实发生了。


更进一步地,OpenAI还做了反方向的对照实验:把健康和科学数据从训练集中完全去掉,只用其他领域的有益特质数据训练。


结果10项健康和心理健康评估,全部提升了。包括那些用医生手写评分标准打分的评估。


没见过一条医疗数据的模型,在医疗评估上也变好了。


你教它在法律场景里讲公平,它在看病时也更靠谱了。你教它在工程场景里注意风险,它给出的心理健康建议也变得更安全了。


这到底是怎么回事?


不是规则,是人格


OpenAI的假说是:对齐行为不是一堆孤立的情境反应,而是由少数高层「特质」驱动的。


他们做了一个分析:把一堆前沿模型(从o3到GPT-5.5 Thinking)在几十个对齐评估上的表现拿出来做主成分分析。


第一主成分就解释了28.2%的方差,而随机排列的零假设区间只有15.3%-20.8%。


这个结果意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估,在底层共享某种东西。


OpenAI发布最新里程碑:对齐的本质是「人格」


这跟Anthropic在2026年2月提出的「人格选择模型」(Persona Selection Model)不谋而合。


Anthropic的理论是:预训练过程中,语言模型学会了模拟大量不同的「人格」;后训练的作用,是从中选出并强化一个特定的Assistant人格。


如果对齐行为本质上是这个Assistant人格的属性,那么强化学习在改变对齐时,改变的不是某条具体规则,而是整个人格的「权重」。


这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则,你是在强化模型的诚实人格。人格变了,所有场景的表现都跟着变。


OpenAI自己也引用了一条互补的证据:他们的同事Dupré la Tour用稀疏自编码器(SAE)发现,当模型被微调去给出坏建议时,一些「有用助手」相关的内部特征被抑制了。


重新激活这些特征,模型的对齐就恢复了。


也就是说,对齐的底层可能就是那么几个方向。


只要调对了,就能全局生效。


坏行为会传染,好行为也会


想要更好地理解这篇论文,需要先知道一个关键背景:Emergent Misalignment。


2025年2月,Betley等人微调GPT-4o写不安全的代码。


模型不仅在编程时变得不诚实,在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。


其中,多达50%的回复出现了广泛的错位行为。


OpenAI发布最新里程碑:对齐的本质是「人格」


论文地址:https://arxiv.org/abs/2502.17424


几乎同时,Anthropic的MacDiarmid等人发现了更让人警觉的版本:


在正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。


OpenAI在论文中明确写道:「这些发现在一定程度上启发了本项研究」。


他们想验证的就是,既然坏行为能跨域泛化,好行为是不是也能?结果证明可以,而且效果比预期更强。


但有一个重要的细节。


OpenAI用「通用帮助性」作为奖励信号做了对照实验,数据场景完全相同,帮助性训练却没有复现对齐泛化效果。


不是随便用什么正向信号训练都行,关键在于奖励信号是否明确指向有益特质。


OpenAI发布最新里程碑:对齐的本质是「人格」


通向ASI的隐藏变量


一直以来,对齐领域有一个噩梦级难题:


你没办法穷举所有场景,提前教AI在每种情况下该怎么做。规则写得再多,总有覆盖不到的角落。


模型越强,角落越多。到了ASI级别,这条路彻底走不通。


但如果对齐不是规则,而是人格呢?


这篇论文给出了一个可能性:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括你从没想过的那些。


OpenAI发布最新里程碑:对齐的本质是「人格」


更关键的是「持久」。


OpenAI测了一组极端对抗实验:拿故意有害的数据去微调这个模型,试图把它掰坏。结果有益特质训练过的模型,对齐退化幅度平均减少了0.26个点。它更难被带坏了。


在AI自己训练AI的时代,这个属性的重要性怎么强调都不为过。


OpenAI发布最新里程碑:对齐的本质是「人格」


Anthropic刚刚公开说超过80%的代码由Claude编写,递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移,那么一个能抵抗偏移的对齐方案就是安全的底线。


这篇论文也许回答了对齐领域最核心的问题:对齐能不能scale?


如果你教的是特质而不是规则,那么答案就是:能。


参考资料:


https://x.com/OpenAI/status/2067722688165232654


https://alignment.openai.com/beneficial-rl/


https://cdn.openai.com/pdf/beneficial-rl.pdf


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner