摘要
本发明涉及一种文本引导的视觉显著性预测方法,包括以下步骤:获取文本和图像显著性检测数据集,对文本数据集进行成对处理;构建TDiffSal模型,包括显著性预测扩散模块、多头融合模块、组合损失函数;将原始图像与真实显著性图像映射至潜在空间,利用图像显著性检测数据集启动模型初始训练,以潜在空间损失和像素空间损失之和作为总损失,通过反向传播更新模型参数,计算双重损失优化模型;使用文本数据集进行微调优化,使用最终保存的最优权重进行测试,输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系,而没有针对于完整文本和图像显著性的问题,提升了模型的鲁棒性和泛化能力,显著提升了多模态特征融合效果。