基于全模态理解的镜头标签提取方法、设备和介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于全模态理解的镜头标签提取方法、设备和介质
申请号:CN202511131135
申请日期:2025-08-13
公开号:CN120635790B
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供了一种基于全模态理解的镜头标签提取方法、设备和介质,涉及视频处理技术领域,提出的方法包括:将原始视频切分为多个语义完整的片段单元,并为每个片段标注镜像属性标签形成标注数据集;基于视觉语言模型,使用标注数据集进行有监督训练;所述视觉语言模型采用Qwen2.5‑VL模型;基于经过有监督训练得到的监督微调模型,采用GRPO算法对所述视觉语言模型进行优化;基于优化后的视觉语言模型对待处理视频进行初步标注,并通过人工修正错误标注,迭代更新视觉语言模型。在复杂视频场景下采用本发明方法进行镜头标签提取,可有效提高提取精度和提取效率。
技术关键词
标签提取方法 视频 视觉 镜头 三维卷积神经网络 生成标签 多模态特征融合 算法 文本 镜像 语义 数据 策略更新 训练集 样本 场景 注意力机制 分布特征