奥特曼：ChatGPT比大多数医生更强！OpenAI研究近4万名患者，AI医疗已势不可挡！

7202点击 2025-07-28 10:10

ChatGPT，比大多数医生更强！

这是OpenAI首席执行官Sam Altman（山姆·奥特曼）的最新观点。

在本周二美联储的一场会议上，奥特曼语出惊人，称如今的ChatGPT能在大多数情况下提供比世界上大多数医生更好的诊断。

奥特曼：ChatGPT比大多数医生更强！OpenAI研究近4万名患者，AI医疗已势不可挡！

ChatGPT是一个比大多数医生更为优秀的专家，奥特曼表示。

话音未落，OpenAI就拿出重磅证据，展示出AI为人类医生纠错的强大能力。

一份来自OpenAI和Penda Health的联合研究于近日发布，涉及39849名患者，是迄今为止规模最大的真实世界大语言模型临床研究。

结果显示，使用GPT-4o的医生相比未使用的医生，其诊断错误减少了16%，治疗错误减少了13%，病史采集错误更是大幅下降了32%。

AI对医疗行业的重大价值，正在被越来越多地强调。

不久前，比尔·盖茨在一档节目中表示，未来十年内，借助AI，优秀的医疗建议将变得免费、普遍，医生将可能会被取代。

但是，奥特曼也补充道，他不会将生命托付给没有人类医生在场的ChatGPT。

这表明，即便AI的诊断能力已经超过人类，但信任仍是阻挡在患者接受AI医生的最大挑战。

OpenAI下场测试，最强AI超越人类医生

尽管奥特曼经常发表夸张言论，但这次他的说法并非耸人听闻。

今年5月，OpenAI联手全球60个国家，262名执业医生，打造出专为医疗大模型设计的AI医疗大模型评估标准——HealthBench。

根据测试，OpenAI的GPT-o3，力压Grok 3和Gemini 2.5 Pro，并比人类医生的回答率高出4倍。

具体来看，OpenAI特意找来了262名医生参与测试，以比较AI 模型性能与专家临床判断。

研究人员把参与测试的262位人类医生分为两组，并和AI回答进行比较。

1、第一组医生可以使用互联网进行回复，但不能使用AI工具

2、第二组医生能够使用OpenAI的模型，医生能够对生成的答案进行改编，以及编写新的答案

结果发现随着时间的推移，AI模型性能进化迅速，人类医生也甘拜下风。

奥特曼：ChatGPT比大多数医生更强！OpenAI研究近4万名患者，AI医疗已势不可挡！

2024年9月，OpenAI测试了GPT-o1-preview和GPT-4o。结果发现，AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。

也就是说人类医生对进行编辑后，明显提升了AI的回答质量。而到了2025年4月测试GPT-o3 和 GPT-4.1 ，情况有了巨大改变。

AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。

换句话说，人类的参与已经不能为AI带来优化，仅凭AI就可以达到最佳水平！

难道人类医生，真的要被取代了吗？

近4万名患者真实调查，AI帮医生“开挂”

不满足于纸面测评的OpenAI，拉来Penda Health一起，想看看AI在诊疗中的实际作用。

Penda Health是一家位于非洲肯尼亚的医疗保健组织，其拥有16个诊所，每年接待近50万名患者就诊。

Penda Health的宗旨是提供高质量且负担得起的护理，有点类似我们国家的公立医院，如何降本增效是他们一直关心的问题。

早在ChatGPT发布之后，Penda Health就敏锐捕捉到了这一机遇，开发出基于大语言模型的临床Copilot（副驾驶）——AI Consult，帮助医生提高决策效率。

今年年初，Penda Health推出最新版本的AI Consult，这一工具集成了GPT-4o，并被完全融入到其医生的工作流程中，提供任何必要的反馈。

OpenAI选择与Penda Health合作，调查了39849名患者就诊记录，其中AI组有20859人，非AI组为18990人。

研究团队邀请108名独立医生进行评级，包括四个维度：病史、调查、诊断和治疗。

结果显示，AI组的所有四个类别的错误都明显低于非AI组。

奥特曼：ChatGPT比大多数医生更强！OpenAI研究近4万名患者，AI医疗已势不可挡！

其中，病史记录错误减少了32%，调查错误减少了10%，诊断错误减少了16%，治疗错误减少了13%。

这意味着，仅在Penda Health内部，AI Consult每年就能避免约22000次诊断错误和29000次治疗错误的发生。

AI组的每一位医生都表示，AI Consult帮助他们提高了服务质量，其中75%的医生表示这种效果“是实质性的”。

不仅如此，研究还发现，AI Consult还带来了医生技能的提升。

临床医生将其描述为一种“学习工具”，可以帮助他们拓宽医学知识，提高临床技能。

随着时间的推移，AI组的临床医生触发的红色警报更少（从研究开始时的45%访问量到研究结束时的35%），这意味着AI帮助他们学会了避免常见的陷阱。

OpenAI与Penda Health的重磅研究表明，医疗领域，大模型的能力与实际应用的差距正在逐步缩小，AI临床“副驾驶”已经展现出强大性能。

写在最后

越来越多的证据显示，AI在医疗领域的潜力日益增加，并且已经在真实世界中发挥作用。

无论是奥特曼，还是比尔盖茨，大佬各种言论的背后，都是对AI重塑医疗行业的坚定信念，而这一愿景，正在逐步成为现实。

与其纠结未来人类医生是否会被AI淘汰，一个更具现实意义的趋势是：熟练使用AI的医生将取代不用AI的医生。

文章来自于“智药局”，作者“子任”。

关键词: AI医疗 , chatGPT , AI新闻 , 奥特曼

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI医疗影像

【开源免费】MONAI是一个专注于医疗影像分析的深度学习框架，它可以让医院高效、准确地从医疗影像数据中提取有价值的信息，以辅助医生进行诊断和治疗。
项目地址：https://github.com/Project-MONAI/MONAI?tab=readme-ov-file

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/