摘要
本申请提供一种基于语言引导的开放世界通用视觉感知方法,属于计算机视觉与自然语言处理交叉领域,包括生成初始多模态融合表示,通过采集视频帧序列和语言指令,经处理与融合得到;接着确定目标候选区域,基于语义关键词与视觉区域特征匹配筛选优化;随后生成目标标识符,对高置信度区域分配唯一标识;再形成连续跟踪轨迹序列,结合算法更新边界框并平滑轨迹;当目标消失时暂存其状态向量,出现相似区域时恢复跟踪标识符;进而优化跟踪序列,调整边界框生成优化序列;最后输出目标运动轨迹、位置及状态信息。本发明通过多模态融合、优化算法及恢复机制,有效提升了开放世界目标识别与跟踪效果,具有较高的实用价值。