一种文本引导的视觉显著性预测方法

申请号：CN202511049860

申请日期：2025-07-29

公开号：CN120953580A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及一种文本引导的视觉显著性预测方法，包括以下步骤：获取文本和图像显著性检测数据集，对文本数据集进行成对处理；构建TDiffSal模型，包括显著性预测扩散模块、多头融合模块、组合损失函数；将原始图像与真实显著性图像映射至潜在空间，利用图像显著性检测数据集启动模型初始训练，以潜在空间损失和像素空间损失之和作为总损失，通过反向传播更新模型参数，计算双重损失优化模型；使用文本数据集进行微调优化，使用最终保存的最优权重进行测试，输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系，而没有针对于完整文本和图像显著性的问题，提升了模型的鲁棒性和泛化能力，显著提升了多模态特征融合效果。

技术关键词

图像特征向量文本编码器注意力模块数据像素更新模型参数损失计算方法图像内物体结构网络误差解码器模态特征视觉特征融合特征注视点

系统为您推荐了相关专利信息

动作识别模型构建方法、装置、计算机设备及存储介质

动作识别模型样本矩阵数据计算机设备

一种急救设备的选址方法、系统及存储介质和设备

急救设备网格特征风险预测模型选址方法时序特征

一种基于流场特征的水下桥墩冲蚀状态判别方法

状态判别方法卷积神经网络模型水下桥墩流场特征桥墩表面

一种网络异常的检测方法、装置、计算机设备、存储介质

网络文本信息网络拓扑特征网络拓扑信息梯度下降算法异常信息

金属管类零件焊接路径智能规划与监控系统

金属管类零件路径智能规划热成像传感器传感器实时监控检测焊接缺陷