摘要
本发明提供了一种基于多尺度特征融合与问题增强的医学视觉问答方法,包括:获取待识别医学图像和待回答文本;将待识别医学图像和待回答文本输入预训练的医学问答模型,得到关于待回答文本的检测结果;检测结果为文本结果;其中,预训练的医学问答模型设置有视觉提取模型、文本提取模型以及分类模型;视觉提取模型为基于多尺度视觉特征提取、多尺度视觉特征增强以及多尺度视觉特征融合方法的视觉模型;视觉提取模型与文本提取模型之间设置有多头交叉注意力的特征交互机制。通过结合预训练的医学问答模型中的视觉提取模型、文本提取模型以及分类模型,提高了医学图像的理解能力,最终整体上提升了医学视觉问答任务的识别精度和回答质量。