OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!
OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。
来自主题: AI资讯
8419 点击 2026-03-09 15:08
OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。