只是因为提问时多打了一个空格,患者就被ChatGPT误导不要就医?
MIT一项新研究表明,如果患者跟AI沟通的时候,消息中包含拼写错误或者大白话,它更有可能建议你不要看医生。
更有甚者,研究还发现AI错误告诉女性不要看医生的比率高于男性。
有些看似微不足道的细节,或许是影响医疗AI机器人理解的关键。
比如单词之间多了一个空格,或者患者使用了俚语或俏皮话。
除此之外,人们模糊地不确定地表达医学概念的时候,AI理解存在偏差或者错误的可能性更高,尤其对于不能使用母语的人来说。
但是,面对专业的医学术语,咱们普通老百姓也只能模糊表达啊。
文字沟通上的问题固然无奈,但AI建议背后的偏见更是个问题。
女性跟男性被AI错误告知的比例压根没法比,女性被告诉不要看医生的比例高于男性。
△按性别划分临床准确率差距(男性-女性)
上图展示了按性别划分的临床准确率差距结果,蓝色条形表示扰动(或基线)情况下,误差线显著性水平为𝑝<0.007,男性患者的临床准确率高于女性患者。
为何会出现这样的比例,作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。
为了弄清楚以上问题,MIT的研究人员评估了四个模型,包括OpenAI的GPT-4、Meta的开源LLama-3-70b,以及一个名为Palmyra-Med的医疗AI。
为了测试它们,研究人员使用真实患者投诉(来自医疗数据库)、Reddit上的健康帖子以及一些AI生成的患者案例,模拟了数千个患者案例。
在把案例“喂”给AI模型之前,研究人员添加了一些“干扰项”,比如使用感叹号、全部小写输入、多种语言风格(如夸张语气)、不确定语言(如“可能”)以及使用性别中性的代词。
△患者沟通方式案例图
这些“干扰项”并未影响患者回答中的临床数据。
结果来说,当面对以上“干扰”的时候,它们更有可能在7%到9%的范围内建议患者自行管理症状,而不是去看医生。
△模型导致的临床准确性差异
上图显示了与基线水平准确性的差异,误差线构建于p<0.007,即模型导致的临床准确性下降。
还有一种解释,医疗大语言模型(LLMs)依赖于医学文献的训练,即接收的都是专业的标准化的“临床信息”,面对日常生活中患者沟通表达的非标准化的、多元的“非临床信息”,大模型没经验,无法提炼。
无论怎么说,很显然,AI模型被非标准的书写方式改变了认知。
医疗AI聊天机器人应用在医院、诊所等场景已经非常常见了,比如智慧导诊、安排预约、回答简单医学问题等,还会根据患者告诉的信息进行分诊。
但是,人们开始怀疑把生命交给经常误解信息并编AI造事实然后下判断的AI模型是否可靠。
更重要的是,“隐形”的AI偏见在未来可能带来更严重的问题。
未参与该研究的加州大学圣地亚哥分校健康学院(UC San Diego Health)的Karandeep Singh表示,“隐性的偏见会改变AI建议的语气和内容,而这可能导致医疗资源分配上出现微妙但重要的差异”。
这项研究的合著者、麻省理工学院EECS副教授Marzyeh Ghassemi表示,这就是医疗大模型行业应用之前必须经过审核的原因。
但是,解决这些问题并不容易。
随着AI在各行各业的深度应用,大型语言模型(LLMs)也越来越多地被应用于临床环境,并开发多种健康应用,比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务;甚至使用LLMs辅助临床决策。
这项研究想要评估,LLMs在临床应用中推理能力的关键作用。
结果也显示,LLMs在医疗应用中显示出巨大潜力。
但研究人员希望他们的工作能激发AI在临床应用中的深度研究,比如对理解临床LLMs推理,考虑非临床信息在决策中的有意义的影响,以及推动在部署患者-人工智能系统之前进行更严格的审核的研究。
参考链接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121
文章来自于微信公众号“量子位”。