基于共享语义与复合外部空间的视觉文本编码方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于共享语义与复合外部空间的视觉文本编码方法及系统
申请号:CN202510959561
申请日期:2025-07-11
公开号:CN120632792A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于共享语义与复合外部空间的视觉文本编码方法及系统,方法包括:统一图像尺寸后检测候选区域并对文本字符进行索引嵌入;利用多层卷积与非线性激活提取局部视觉特征并展平;采用双向循环网络分别从左至右和从右至左进行门控计算;定义K个外部空间,每个空间含有视觉和文本映射矩阵,将局部视觉特征与文本特征映射至对应外部空间;计算视觉与文本在各空间中的匹配度及正则约束;对各外部空间映射进行加权融合,并在维度级注意力下输出聚合特征;对聚合特征进行池化或汇总,生成最终跨模态全局;本发明在视觉图像与文本描述之间建立了精准而动态的跨模态语义对齐,实现高效、准确的检索与匹配。
技术关键词
文本编码方法 局部视觉特征 语义 跨模态 注意力 视觉特征提取 局部特征提取 定义 矩阵 输出特征 非线性 数据处理模块 图像块 文本特征向量 序列 原始图像数据
系统为您推荐了相关专利信息
中文文本 语义向量 音频编码器 文本编码器 预训练语言模型
遥感图像分类方法 多尺度 图像分类模型 网络结构 无人机
医疗影像数据 影像特征数据 形态 疾病风险预测方法 注意力
文本 数据处理方法 依赖特征 特色 政务
马铃薯缺陷检测 马铃薯图像 注意力机制 亮度 马铃薯设备