基于跨模态检索增强的影像报告生成方法

申请号：CN202511114351

申请日期：2025-08-11

公开号：CN120954610A

公开日期：2025-11-14

类型：发明专利

摘要

本发明提供了基于跨模态检索增强的影像报告生成方法，本发明的技术方案不仅提取视觉全局特征来保障全局感官能力，还提取具有病理判别力的多尺度视觉嵌入，从而更细粒度地获得生成报告所需的细节信息；另外，还从多尺度视觉嵌入中提取多尺度的视觉时序特征，通过时序迭代优化聚焦于病灶区域细节，以构造视觉局部特征；融合视觉全局特征和视觉联合特征得到视觉特征，该视觉特征即含有全局知识，也含有包含不同尺度的细粒度知识的局部知识，提升辅助报告的生成准确性；报告生成前，还从预索引的医学知识库中检索医学影像最相关的报告文本，以增强医学影像的知识，从而引导自回归生成模型更精准地生成辅助报告。

技术关键词

时序特征多尺度影像报告生成方法视觉特征联合特征提取文本编码器全局特征提取医学知识库注意力机制样本 Sigmoid函数跨模态 BERT模型匹配模块融合视觉