摘要
本发明提供了基于跨模态检索增强的影像报告生成方法,本发明的技术方案不仅提取视觉全局特征来保障全局感官能力,还提取具有病理判别力的多尺度视觉嵌入,从而更细粒度地获得生成报告所需的细节信息;另外,还从多尺度视觉嵌入中提取多尺度的视觉时序特征,通过时序迭代优化聚焦于病灶区域细节,以构造视觉局部特征;融合视觉全局特征和视觉联合特征得到视觉特征,该视觉特征即含有全局知识,也含有包含不同尺度的细粒度知识的局部知识,提升辅助报告的生成准确性;报告生成前,还从预索引的医学知识库中检索医学影像最相关的报告文本,以增强医学影像的知识,从而引导自回归生成模型更精准地生成辅助报告。