基于多尺度特征融合与问题增强的医学视觉问答方法

申请号：CN202510335262

申请日期：2025-03-20

公开号：CN120316281A

公开日期：2025-07-15

类型：发明专利

摘要

本发明提供了一种基于多尺度特征融合与问题增强的医学视觉问答方法，包括：获取待识别医学图像和待回答文本；将待识别医学图像和待回答文本输入预训练的医学问答模型，得到关于待回答文本的检测结果；检测结果为文本结果；其中，预训练的医学问答模型设置有视觉提取模型、文本提取模型以及分类模型；视觉提取模型为基于多尺度视觉特征提取、多尺度视觉特征增强以及多尺度视觉特征融合方法的视觉模型；视觉提取模型与文本提取模型之间设置有多头交叉注意力的特征交互机制。通过结合预训练的医学问答模型中的视觉提取模型、文本提取模型以及分类模型，提高了医学图像的理解能力，最终整体上提升了医学视觉问答任务的识别精度和回答质量。

技术关键词

多尺度特征融合识别医学图像视觉问答方法问答模型文本融合特征视觉特征提取交互机制融合方法机器可读指令去噪自动编码器问答装置交叉注意力机制多头注意力机制模块