基于共享语义与复合外部空间的视觉文本编码方法及系统
申请号:CN202510959561
申请日期:2025-07-11
公开号:CN120632792A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于共享语义与复合外部空间的视觉文本编码方法及系统,方法包括:统一图像尺寸后检测候选区域并对文本字符进行索引嵌入;利用多层卷积与非线性激活提取局部视觉特征并展平;采用双向循环网络分别从左至右和从右至左进行门控计算;定义K个外部空间,每个空间含有视觉和文本映射矩阵,将局部视觉特征与文本特征映射至对应外部空间;计算视觉与文本在各空间中的匹配度及正则约束;对各外部空间映射进行加权融合,并在维度级注意力下输出聚合特征;对聚合特征进行池化或汇总,生成最终跨模态全局;本发明在视觉图像与文本描述之间建立了精准而动态的跨模态语义对齐,实现高效、准确的检索与匹配。
技术关键词
文本编码方法
局部视觉特征
语义
跨模态
注意力
视觉特征提取
局部特征提取
定义
矩阵
输出特征
非线性
数据处理模块
图像块
文本特征向量
序列
原始图像数据