一种文本视频多模态融合的视频时刻检索方法

申请号：CN202510095596

申请日期：2025-01-22

公开号：CN119537644B

公开日期：2025-04-11

类型：发明专利

摘要

本申请涉及一种文本视频多模态融合的视频时刻检索方法，将文本特征和多尺度视频特征进行全局融合，得到全局偏移量；将文本特征和多尺度视频特征进行局部融合，得到局部偏移量；累加全局偏移量和局部偏移量，得到总的偏移量；根据总的偏移量确定每个候选时刻对应的时间片段；对所有的时间片段采用非极大值抑制方法进行处理，得到最终的时间片段，即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题，既能捕捉到文本与视频之间的全局语义一致性，同时能够在更细粒度的层次上进行融合，有效的提升了视频时刻检索的准确性。

技术关键词

多尺度非极大值抑制方法视频特征提取检索方法多层感知机卷积分类器多模态文本编码器全局特征融合语义可读存储介质特征提取模块检索装置计算机程序产品处理器动态

系统为您推荐了相关专利信息

非均匀性环境条件下的流体多组分迁移分析方法

迁移分析方法数值求解算法并行计算架构地质勘探技术网格技术

基于多工艺变量融合与深度学习的连铸过程异常监控方法

异常监控方法冶金工业自动化控制变量结晶器液位局部突变特征

基于人工智能的电力向量知识库增强检索方法及系统

命名实体识别模型文本分类模型检索方法 BERT模型电力系统

一种用于移动终端的分账结算优化方法

移动终端地理位置信息移动轨迹模式信号强度信息寻呼策略

一种注意力机制下的多机器人路径规划方法及系统

多头注意力机制感知特征多层感知机可读取存储介质高层次