一种文本视频多模态融合的视频时刻检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文本视频多模态融合的视频时刻检索方法
申请号:CN202510095596
申请日期:2025-01-22
公开号:CN119537644B
公开日期:2025-04-11
类型:发明专利
摘要
本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。
技术关键词
多尺度 非极大值抑制方法 视频特征提取 检索方法 多层感知机 卷积分类器 多模态 文本编码器 全局特征融合 语义 可读存储介质 特征提取模块 检索装置 计算机程序产品 处理器 动态
系统为您推荐了相关专利信息
迁移分析方法 数值求解算法 并行计算架构 地质勘探技术 网格技术
异常监控方法 冶金工业自动化控制 变量 结晶器液位 局部突变特征
命名实体识别模型 文本分类模型 检索方法 BERT模型 电力系统
移动终端 地理位置信息 移动轨迹模式 信号强度信息 寻呼策略
多头注意力机制 感知特征 多层感知机 可读取存储介质 高层次