基于渐进式交互和多模态对齐的视频片段句子定位方法

申请号：CN202510051849

申请日期：2025-01-14

公开号：CN119478794B

公开日期：2025-04-29

类型：发明专利

摘要

本发明涉及计算机视觉和自然语言处理技术领域，尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下：首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接，再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息，随后根据与查询句子交互后的视频特征生成多个候选片段，通过分组候选片段交互模块学习候选片段之间的关系，然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异，最后将所有候选片段特征与单个查询句子特征计算匹配分数，分数高的作为预测结果。本发明可以精准地对视频片段进行定位。

技术关键词

视频多模态序列融合分支定位方法自然语言序列特征矩阵持久层框架机制通道卷积模型对齐模块计算机视觉模态特征定位算法时间段融合特征三维模型

系统为您推荐了相关专利信息

基于虚拟世界空间定位和移动方法

头戴VR装置虚拟现实手柄人物模型最佳观看区域追踪设备

深远海下太阳能光伏板点蚀与裂缝识别定位方法

识别定位方法图像太阳能光伏板裂缝缺陷

一种异形屏视频分割处理方法及系统

显示设备屏幕视频图像内容轮廓信息抗锯齿

一种基于机顶盒的本地信息智能服务平台

智能服务平台智能电视屏幕机顶盒设施租赁点

一种基于大语言模型和特征检测的智能运维系统和方法

智能运维系统大语言模型数据获取模块运维知识库输出模块