基于多模态多尺度交叉注意力的目标计数方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态多尺度交叉注意力的目标计数方法及系统
申请号:CN202411862383
申请日期:2024-12-17
公开号:CN119785057B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统,包括:基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵;进而建立基于多分类交叉熵的对比学习损失,以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量,经过缩放点积模型的计算,输出注意力分数,并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块,实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能,为目标计数的下游密度图回归任务提供了良好的视觉编码。
技术关键词
视觉特征 计数方法 嵌入特征 交叉注意力机制 模态特征 多模态信息 文本编码器 矩阵 语义 交互网络 文本特征向量 图像 结构多尺度 模块 多尺度特征融合