摘要
本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统,包括:基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵;进而建立基于多分类交叉熵的对比学习损失,以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量,经过缩放点积模型的计算,输出注意力分数,并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块,实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能,为目标计数的下游密度图回归任务提供了良好的视觉编码。