OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!
OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。
OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。
从OpenAI出走的前首席研究官Bob McGrew,没有去卷更聪明的大模型,而是杀进制造业工厂,要用AI为流水线机器装上「眼睛+大脑」。
这位年仅 24 岁的哥们叫 Riley Walz,被《连线》和《纽约时报》等媒体冠以「硅谷小丑(Jester of Silicon Valley)」称号。别人写代码是为了改变世界,他写代码纯粹是为了给现实世界找点乐子。
OpenAI来“钓”开发者了,还是“龙虾之父”亲自出马的那种(doge)。Peter Steinberger刚刚在x上兴奋宣传了自己加盟OpenAI后,参与的第一个项目:Codex for Open Source。
机器之心编辑部 近日,一款名为 StoryWorld 的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注:用户只需用手机摄像头对准真实空间,通过语音输入描述,即可生成 3D 角色与物
AI 搜索引擎正逐渐取代传统搜索入口,「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐,搜索与内容分发的边界正在被重新定义。在这样的环境下,你的内容能否在 AI 搜索中成为「爆款」,不再只取决于标题和流量,而是更大程度取决于 AI 本身的引用偏好。
OpenAI深夜突袭,GPT-5.4新王炸场!一夜之间,直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神话。这也是头一次,ChatGPT拥有真正「原生电脑使用」能力,办公效率直接拉满。而真正恐怖的地方在于,每一个维度上它都没有短板。
今一大早,收到了个消息: OpenAI 要上市了
OpenAI的人才地震还在继续!刚刚,前研究副总裁Max Schwarzer宣布离职,这位亲手主导o1、o3和整个GPT-5系列post-training的核心人物,选择加入Anthropic,重返一线RL研究。
一份绝密备忘录爆出,Dario Amodei彻底撕碎了OpenAI,怒喷「安全作秀」做样子给所有人看。但不可否认的是,美国务院正大面积抛弃Claude,接入GPT-4.1。