摘要
本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质,涉及视频处理技术领域,提出的方法包括:将原始视频切分为多个语义完整的片段单元,并为每个片段标注镜像属性标签形成标注数据集;基于视觉语言模型,使用标注数据集进行有监督训练;所述视觉语言模型采用Qwen2.5‑VL模型;基于经过有监督训练得到的监督微调模型,采用GRPO算法对所述视觉语言模型进行优化;基于优化后的视觉语言模型对待处理视频进行初步标注,并通过人工修正错误标注,迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取,可有效提高提取精度和提取效率。