一种文本引导的视觉显著性预测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文本引导的视觉显著性预测方法
申请号:CN202511049860
申请日期:2025-07-29
公开号:CN120953580A
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及一种文本引导的视觉显著性预测方法,包括以下步骤:获取文本和图像显著性检测数据集,对文本数据集进行成对处理;构建TDiffSal模型,包括显著性预测扩散模块、多头融合模块、组合损失函数;将原始图像与真实显著性图像映射至潜在空间,利用图像显著性检测数据集启动模型初始训练,以潜在空间损失和像素空间损失之和作为总损失,通过反向传播更新模型参数,计算双重损失优化模型;使用文本数据集进行微调优化,使用最终保存的最优权重进行测试,输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系,而没有针对于完整文本和图像显著性的问题,提升了模型的鲁棒性和泛化能力,显著提升了多模态特征融合效果。
技术关键词
图像特征向量 文本编码器 注意力 模块 数据 像素 更新模型参数 损失计算方法 图像内物体 结构网络 误差 解码器 模态特征 视觉特征 融合特征 注视点
系统为您推荐了相关专利信息
动作识别模型 样本 矩阵 数据 计算机设备
急救设备 网格特征 风险预测模型 选址方法 时序特征
状态判别方法 卷积神经网络模型 水下桥墩 流场特征 桥墩表面
网络文本信息 网络拓扑特征 网络拓扑信息 梯度下降算法 异常信息
金属管类零件 路径智能规划 热成像传感器 传感器实时监控 检测焊接缺陷