基于全模态理解的镜头标签提取方法、设备和介质

申请号：CN202511131135

申请日期：2025-08-13

公开号：CN120635790B

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质，涉及视频处理技术领域，提出的方法包括：将原始视频切分为多个语义完整的片段单元，并为每个片段标注镜像属性标签形成标注数据集；基于视觉语言模型，使用标注数据集进行有监督训练；所述视觉语言模型采用Qwen2.5‑VL模型；基于经过有监督训练得到的监督微调模型，采用GRPO算法对所述视觉语言模型进行优化；基于优化后的视觉语言模型对待处理视频进行初步标注，并通过人工修正错误标注，迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取，可有效提高提取精度和提取效率。

技术关键词

标签提取方法视频视觉镜头三维卷积神经网络生成标签多模态特征融合算法文本镜像语义数据策略更新训练集样本场景注意力机制分布特征