重建混合策略的三维医学图像视觉语言模型预训练方法

申请号：CN202510119149

申请日期：2025-01-24

公开号：CN119943252B

公开日期：2025-12-12

类型：发明专利

摘要

本发明公开了重建混合策略的三维医学图像视觉语言模型预训练方法，属于医学影像计算技术领域，包括构建医学图像文本对数据集，语言文本掩码重建策略，视觉图像掩码重建策略，语义感知融合策略，多任务联合学习；本发明对大语言模型进行微调，使用微调的大语言模型提取医学报告中的诊断及属性信息并生成高效的提示，并且大语言模型具有较强的泛化能力，大大节省了人工标注的成本；本发明的语义感知融合策略，是将文本编码器得到的文本特征和图像编码器得到的图像特征相结合得到新的文本特征，使文本提前感知图像的诊断及属性信息，进一步优化图像和文本在嵌入空间中的对齐，提升了预训练的效率。

技术关键词

语言模型预训练方法三维医学图像数据生成图像特征文本编码器图像编码器多任务联合学习文本特征向量融合策略三维医学图像分割视觉图像重建序列生成模板大语言模型报告交叉注意力机制图像解码器