OpenAI发布最新里程碑:对齐的本质是「人格」
OpenAI发布最新里程碑:对齐的本质是「人格」就在最近,OpenAI扔出一篇重磅论文。他们发现,只教AI好好看病,它写代码居然也不作弊了。方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。
搜索
就在最近,OpenAI扔出一篇重磅论文。他们发现,只教AI好好看病,它写代码居然也不作弊了。方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。
刚刚, OpenAI、Google DeepMind、Anthropic三大AI巨头CEO与G7领导人在法国阿尔卑斯山共进工作午餐,历史首次。上一次这些领导人坐在一起,讨论的是二毛、中东、全球供应链这些问题。现在AI公司的CEO被请到了同一张桌子上。
OpenAI 的 tevfik 写了篇关于 loop engineering 的文章,开头那句我读完顿了一下。他说,他和 coding agent 协作,到现在大多还是同一个流程:我解释一个任务,等结果,审一遍,再发下一条指令。代码是 agent 写的,但我在后台还干着另一份活——我记着发生了什么、决定下一步做什么、判断这事到底完成没。
近期,在 LangChain 举办的智能体大会 Interrupt 上,吴恩达与 LangChain 创始人 Harrison Chase 进行了一场关于 AI Agent 的对谈。整场交流的核心并不是简单讨论 Agent 有多强,而是围绕一个更现实的问题展开:当 AI Agent 让软件开发变快之后,真正的瓶颈会转移到哪里?
很多人认为这个数字不是随便挑的:美国政府向 Anthropic 下发出口管制指令、切断 Fable 5 与 Mythos 5 境外访问权限的那一刻,正是美国东部时间下午 5 点 21 分。「5 点 21」这个数字上的重复,被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来,相当于当着全世界开发者的面说了一句话:你们担心的「模型随时可能被收回」,开源这边没有这个问题。
早在3月20日,纽约时报的凯文·罗斯就发现了在硅谷开发者中,出现了一种叫做 Tokenmaxxing的现象。这个现象最早出现在OpenAI、Anthropic等前沿模型开发公司。OpenAI 的工程师一周用了 2100 亿个token,大概是 33 个维基百科的量;Claude Code 的工程师则一个月单人可以烧15万美元token。
过去两年,关于 AI 的讨论几乎都绕着同一个词打转——失业。哪些岗位会消失,多少程序员会被取代,下一个被端掉饭碗的白领是谁。这个叙事好懂,也足够让人焦虑,所有人都能对号入座。
真正把灵动岛推上风口的,是 6 月以来接连发生的几件事。6 月 8 日的 WWDC 2026,苹果发布了全新的 Siri AI。Federighi 在台上的原话是,苹果要「带来下一代 Apple Intelligence,并推出 Siri AI,一个明显更聪明、更博学、也更能干的 Siri」。
来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架,在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上,FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价(SA@1 = 72/129),是此前最好结果的 3.6 倍;
香港大学李弘扬团队联合华为、上海创智学院及清华大学李升波教授团队,发表的最新论文World Engine: Towards the Era of Post-Training for Autonomous Driving给出了系统回答。