斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

5799点击 2025-06-04 11:02

斯坦福最新大模型医疗任务全面评测，DeepSeek R1以66%胜率拿下第一！

歪国网友纷纷被惊艳住了，原因在于该评测重点聚焦临床医生的日常工作场景，而非仅局限于传统医疗执照考试题。

要评测就要全方位。

团队构建了含35个基准测试的综合评估框架，覆盖22个子类别医疗任务。

整个评测的分类体系还经过了临床医生验证，由29名来自14个医学专科的执业医师共同参与开发。

光作者名单就老长，斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心（CRFM）、微软的研究人员均在列。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

31页论文最终得出，DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型，DeepSeek R1以66%胜率、0.75宏观平均分领先。

为当前的基准测试结果，团队还打造了一个可公开访问的排行榜。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

除DeepSeek R1领先外，o3-mini紧随其后，以64%胜率及最高0.77宏观平均分紧追；Claude 3.5和3.7 Sonnet则达到了63%、64%的胜率。

看了具体研究，网友表示这些评估很有帮助。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

下面来看更多细节。

大模型临床医疗任务大考

此综合评估框架名为MedHELM，受到了之前斯坦福HELM项目标准化跨领域评估思路的启发。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

研究核心贡献之一是构建了一个经过临床医生验证的分类体系。

该体系模拟了临床医生日常工作逻辑，包含三个层级：

类别：医疗活动的广泛领域（如“临床决策支持”）；
子类别：类别下的相关任务组（如“支持诊断决策”）；
任务：医疗服务中的离散操作（如“生成鉴别诊断”）。

在初步拟定分类体系时，一名临床医生基于《美国医学会杂志》（JAMA）综述中梳理的任务，将这些任务重组为反映真实医疗活动的功能主题，形成了一个含5个类别、21个子类别、98项任务的框架。

然后团队对这个初始分类体系进行验证。

来自14个医学专科的29名执业临床医生参与问卷调研，从分类逻辑和覆盖全面性两方面评估体系合理性。

根据反馈，体系最终扩展为5 个类别、22 个子类别、121 项任务，全面覆盖临床决策支持、临床病例生成、患者沟通与教育、医学研究辅助、管理与工作流程等医疗实践的各个方面，且26位临床医生对子类别分类达成96.7%的一致性。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

核心贡献二，在分类体系基础上，团队构建了一个含35个基准测试的综合评估套件，包括：

17个现有基准测试
5个基于现有数据集重新构建的基准测试
13个全新开发的基准测试

值得一提的是，13个全新开发的基准测试中有12个基于真实的电子健康记录数据，有效弥补了现有评估中真实医疗数据使用不足的问题。

最终这整套基准测试，完全覆盖了分类体系中的所有22个子类别，同时根据数据的敏感性和访问限制，这些基准测试被划分为14个公开、7个需要审批和14个私有的不同访问级别。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

考试题准备就绪后，研究团队对9个前沿大语言模型进行了系统性评估。

评测结果如何？

评估显示，模型表现存在显著差异。

DeepSeek R1表现最佳，在两两对比中以66%的胜率领先，宏观平均分为0.75，且胜率标准差较低（0.10）。

其中胜率指模型在全部35个基准测试的两两对比中表现更优的比例。胜率标准差（SD）衡量模型获胜的稳定性（值越低=稳定性越高）。宏观平均分是所有35个基准测试的平均性能得分。标准差（SD）反映模型在不同基准测试中的性能波动（值越低=跨基准一致性越高）。

o3-mini紧随其后，在临床决策支持类别基准中表现较优，以64%的胜率和最高宏观平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet胜率分别为64%、63%，宏观平均分均为0.73；GPT-4o胜率为57%；Gemini 2.0 Flash和GPT-4o mini胜率较低，分别为42%、39%。

另外，开源模型Llama 3.3 Instruct胜率为30%；Gemini 1.5 Pro以24%的胜率排名末位，但其胜率标准差最低（0.08），显示出最稳定的竞争表现。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

团队还以热图形式展示了每个模型在35个基准测试中的标准化得分，深绿色表示性能更高，深红色表示低性能。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

结果显示，模型在以下基准测试中表现较差：

MedCalc-Bench（从患者病历中计算医学值）
EHRSQL（根据自然语言指令生成用于临床研究的SQL查询——原设计为代码生成数据集）
MIMIC-IV Billing Code（为临床病例分配ICD-10代码）

在NoteExtract基准测试（从临床病历中提取特定信息）中表现最佳。

更深入的分析显示，不同类别的任务中模型表现呈现明显的层次性差异。

在临床病例生成任务中，大多数模型达到了0.74-0.85的高分表现；在患者沟通教育任务中表现同样出色，得分在0.76-0.89之间；在医学研究辅助（0.65-0.75）和临床决策支持（0.61-0.76）类别中表现中等，而在管理与工作流程（0.53-0.63）类别中的得分普遍较低。

这种差异反映了自由文本生成任务（如临床病例生成、患者沟通）更适合发挥大语言模型的自然语言优势，而结构化推理任务则需要更强的领域特定知识整合和逻辑推理能力。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

对于13个开放式基准测试，团队采用了大语言模型评审团（LLM-jury）评估方法。

为评估该方法的有效性，团队收集了临床医生对部分模型输出的独立评分。其中，从ACI-Bench中选取了31个实例，从MEDIQA-QA中选取了25个实例，以比较临床医生给出的分数与评审团的综合评分。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

结果显示，LLM陪审团方法与临床医生评分的一致性达到0.47的组内相关系数，不仅超过了临床医生之间的平均一致性（ICC=0.43），也明显优于传统的自动化评估指标如ROUGE-L（0.36）和BERTScore-F1（0.44）。

团队由此认为，大语言模型评审团比标准词汇指标更能反映临床医生的判断，证明了其作为临床医生评分替代方法的有效性。

成本效益分析是该研究的另一个创新，基于2025年5月12日的公开定价，团队结合基准测试运行和大语言模型评审团评估过程中消耗的输入总token数和最大输出token数，估算了每个模型所需的成本。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

正如预期，非推理模型GPT-4o mini（805美元）和Gemini 2.0 Flash（815美元）成本更低，胜率分别为0.39和0.42。

推理模型成本较高，DeepSeek R1（1806美元）和o3-mini（1722美元）的胜率分别为0.66和0.64。

综合来看，Claude 3.5 Sonnet（1571美元）和Claude 3.7 Sonnet（1537美元）在性价比上表现良好，以较低成本实现了约0.63的胜率。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

更多详情感兴趣的童鞋可查看原论文。

论文链接：https://arxiv.org/pdf/2505.23802

Blog链接：https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜链接：https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

参考链接：https://x.com/iScienceLuvr/status/1929388406032810046

文章来自于“量子位”，作者“西风”。

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

关键词: AI , AI医疗 , DeepSeek , openai

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/