摘要
本发明公开了重建混合策略的三维医学图像视觉语言模型预训练方法,属于医学影像计算技术领域,包括构建医学图像文本对数据集,语言文本掩码重建策略,视觉图像掩码重建策略,语义感知融合策略,多任务联合学习;本发明对大语言模型进行微调,使用微调的大语言模型提取医学报告中的诊断及属性信息并生成高效的提示,并且大语言模型具有较强的泛化能力,大大节省了人工标注的成本;本发明的语义感知融合策略,是将文本编码器得到的文本特征和图像编码器得到的图像特征相结合得到新的文本特征,使文本提前感知图像的诊断及属性信息,进一步优化图像和文本在嵌入空间中的对齐,提升了预训练的效率。