基于多模态的视频定位方法和装置、电子设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态的视频定位方法和装置、电子设备及介质
申请号:CN202510622147
申请日期:2025-05-14
公开号:CN120510550A
公开日期:2025-08-19
类型:发明专利
摘要
本申请实施例提供了一种基于多模态的视频定位方法和装置、电子设备及介质,属于人工智能技术领域。该方法包括:通过获取和识别目标视频的视频查询文本及其所属的任务类别,提取任务类别特征和视频查询文本特征,并对连续的目标视频帧进行视觉时空特征提取,得到目标视觉特征,融合视频查询文本特征、任务类别特征及目标视觉特征,得到目标融合特征,基于目标融合特征定位目标视频,得到包括起始时间和终止时间的目标定位视频信息。本申请实施例基于融合的文本、视觉和任务特征对目标视频进行视频定位,能够基于视频全局信息直接预测定位视频的起始和终止时间,提高了视频定位的准确率。
技术关键词
视觉特征 文本 视频定位方法 融合特征 视频帧特征 时序特征 多模态 语义特征 特征提取模块 注意力 视频定位装置 掩码矩阵 图像 电子设备 对象 可读存储介质
系统为您推荐了相关专利信息
文本 答案 生成规则 样本 关键词
融合多场景 输电杆塔 像素点 种子 节点
胎儿心率 信号生成方法 信号生成系统 融合特征 局部特征提取
拉普拉斯噪声 隐私保护模块 特征提取模块 动态映射机制 性能优化系统
医疗器械管理方法 牙科器械 牙科治疗 Copula函数 粒子群优化算法