基于渐进式交互和多模态对齐的视频片段句子定位方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于渐进式交互和多模态对齐的视频片段句子定位方法
申请号:CN202510051849
申请日期:2025-01-14
公开号:CN119478794B
公开日期:2025-04-29
类型:发明专利
摘要
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下:首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接,再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息,随后根据与查询句子交互后的视频特征生成多个候选片段,通过分组候选片段交互模块学习候选片段之间的关系,然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异,最后将所有候选片段特征与单个查询句子特征计算匹配分数,分数高的作为预测结果。本发明可以精准地对视频片段进行定位。
技术关键词
视频 多模态序列融合 分支 定位方法 自然语言 序列特征 矩阵 持久层框架 机制 通道 卷积模型 对齐模块 计算机视觉 模态特征 定位算法 时间段 融合特征 三维模型
系统为您推荐了相关专利信息
头戴VR装置 虚拟现实手柄 人物模型 最佳观看区域 追踪设备
识别定位方法 图像 太阳能 光伏板 裂缝缺陷
显示设备 屏幕 视频图像内容 轮廓信息 抗锯齿
智能服务平台 智能电视屏幕 机顶盒 设施 租赁点
智能运维系统 大语言模型 数据获取模块 运维知识库 输出模块