ChatGPT,比大多数医生更强!
这是OpenAI首席执行官Sam Altman(山姆·奥特曼)的最新观点。
在本周二美联储的一场会议上,奥特曼语出惊人,称如今的ChatGPT能在大多数情况下提供比世界上大多数医生更好的诊断。
ChatGPT是一个比大多数医生更为优秀的专家,奥特曼表示。
话音未落,OpenAI就拿出重磅证据,展示出AI为人类医生纠错的强大能力。
一份来自OpenAI和Penda Health的联合研究于近日发布,涉及39849名患者,是迄今为止规模最大的真实世界大语言模型临床研究。
结果显示,使用GPT-4o的医生相比未使用的医生,其诊断错误减少了16%,治疗错误减少了13%,病史采集错误更是大幅下降了32%。
AI对医疗行业的重大价值,正在被越来越多地强调。
不久前,比尔·盖茨在一档节目中表示,未来十年内,借助AI,优秀的医疗建议将变得免费、普遍,医生将可能会被取代。
但是,奥特曼也补充道,他不会将生命托付给没有人类医生在场的ChatGPT。
这表明,即便AI的诊断能力已经超过人类,但信任仍是阻挡在患者接受AI医生的最大挑战。
尽管奥特曼经常发表夸张言论,但这次他的说法并非耸人听闻。
今年5月,OpenAI联手全球60个国家,262名执业医生,打造出专为医疗大模型设计的AI医疗大模型评估标准——HealthBench。
根据测试,OpenAI的GPT-o3,力压Grok 3和Gemini 2.5 Pro,并比人类医生的回答率高出4倍。
具体来看,OpenAI特意找来了262名医生参与测试,以比较AI 模型性能与专家临床判断。
研究人员把参与测试的262位人类医生分为两组,并和AI回答进行比较。
1、第一组医生可以使用互联网进行回复,但不能使用AI工具
2、第二组医生能够使用OpenAI的模型,医生能够对生成的答案进行改编,以及编写新的答案
结果发现随着时间的推移,AI模型性能进化迅速,人类医生也甘拜下风。
2024年9月,OpenAI测试了GPT-o1-preview和GPT-4o。结果发现,AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。
也就是说人类医生对进行编辑后,明显提升了AI的回答质量。而到了2025年4月测试GPT-o3 和 GPT-4.1 ,情况有了巨大改变。
AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。
换句话说,人类的参与已经不能为AI带来优化,仅凭AI就可以达到最佳水平!
难道人类医生,真的要被取代了吗?
不满足于纸面测评的OpenAI,拉来Penda Health一起,想看看AI在诊疗中的实际作用。
Penda Health是一家位于非洲肯尼亚的医疗保健组织,其拥有16个诊所,每年接待近50万名患者就诊。
Penda Health的宗旨是提供高质量且负担得起的护理,有点类似我们国家的公立医院,如何降本增效是他们一直关心的问题。
早在ChatGPT发布之后,Penda Health就敏锐捕捉到了这一机遇,开发出基于大语言模型的临床Copilot(副驾驶)——AI Consult,帮助医生提高决策效率。
今年年初,Penda Health推出最新版本的AI Consult,这一工具集成了GPT-4o,并被完全融入到其医生的工作流程中,提供任何必要的反馈。
OpenAI选择与Penda Health合作,调查了39849名患者就诊记录,其中AI组有20859人,非AI组为18990人。
研究团队邀请108名独立医生进行评级,包括四个维度:病史、调查、诊断和治疗。
结果显示,AI组的所有四个类别的错误都明显低于非AI组。
其中,病史记录错误减少了32%,调查错误减少了10%,诊断错误减少了16%,治疗错误减少了13%。
这意味着,仅在Penda Health内部,AI Consult每年就能避免约22000次诊断错误和29000次治疗错误的发生。
AI组的每一位医生都表示,AI Consult帮助他们提高了服务质量,其中75%的医生表示这种效果“是实质性的”。
不仅如此,研究还发现,AI Consult还带来了医生技能的提升。
临床医生将其描述为一种“学习工具”,可以帮助他们拓宽医学知识,提高临床技能。
随着时间的推移,AI组的临床医生触发的红色警报更少(从研究开始时的45%访问量到研究结束时的35%),这意味着AI帮助他们学会了避免常见的陷阱。
OpenAI与Penda Health的重磅研究表明,医疗领域,大模型的能力与实际应用的差距正在逐步缩小,AI临床“副驾驶”已经展现出强大性能。
越来越多的证据显示,AI在医疗领域的潜力日益增加,并且已经在真实世界中发挥作用。
无论是奥特曼,还是比尔盖茨,大佬各种言论的背后,都是对AI重塑医疗行业的坚定信念,而这一愿景,正在逐步成为现实。
与其纠结未来人类医生是否会被AI淘汰,一个更具现实意义的趋势是:熟练使用AI的医生将取代不用AI的医生。
文章来自于“智药局”,作者“子任”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】MONAI是一个专注于医疗影像分析的深度学习框架,它可以让医院高效、准确地从医疗影像数据中提取有价值的信息,以辅助医生进行诊断和治疗。
项目地址:https://github.com/Project-MONAI/MONAI?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/