基于上下文标记提示的长视频目标推理分割方法

申请号：CN202510857459

申请日期：2025-06-25

公开号：CN120707859B

公开日期：2025-12-09

类型：发明专利

摘要

本发明属于图像分割技术领域，公开一种基于上下文标记提示的长视频目标推理分割方法，包括预训练图像编码器、多层感知机映射模块、多模态特征融合模块、大语言模型和掩码传播器。先从等分的视频片段中采样支持帧，并与关键帧一起通过预训练的图像编码器和多层感知机映射模块将为相对应的视觉特征；多模态特征融合模块通过多个融合模块，将参考表达与支持帧的视觉特征注入到潜在查询中，生成富集后的潜在查询；这些富集后的潜在查询引导大语言模型生成关键帧及全视频级的<SEG>标记，最终由基于SAM2的掩码传播器准确解码并在所有帧中持续一致地传播。该方法通过上下文标记提示和多模态特征融合模块解决了长距离依赖建模与一致性跟踪问题。

技术关键词

多模态特征融合视觉特征大语言模型图像编码器视频分割方法多层感知机标记富集文本模块识别关键帧混合损失函数图像分割技术记忆机制解码信息策略注意力