一种基于多模态模型进行视频对象搜索的方法

申请号：CN202510380666

申请日期：2025-03-28

公开号：CN119884418A

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了一种基于多模态模型进行视频对象搜索的方法，基于自研的多模态模型构建了一整套从视频数据预处理、特征提取到多模态融合与匹配的人员搜索流程，能够根据文本输入快速从海量图片（视频）中检索目标对象；使用了先进的多模态技术实现了对视频内容的综合分析和理解，通过结合自然语言描述，视频快速定位的方式提供了自动化的人员识别和定位能力，可以快速、精准地在海量视频中找到目标人物，显著缩短了搜索时间，减少了人工干预，大幅提升了效率和准确性。

技术关键词

多模态非易失性存储介质计算机可读指令对象视频流模态技术机器学习模型数据文本图片生成向量信息编码非机动车机动车辆自然语言电子装置图像存储器

系统为您推荐了相关专利信息

一种用于工作站的入侵检测方法及系统

入侵检测方法令牌列表工作站执行语句

自主游戏操作AI代理方法与装置

控制权视频流同步画面大语言模型意图

一种新型多模态智能远程智能监控系统及方法

远程智能监控系统在线增量学习多模态实用拜占庭容错验证数据完整性

一种基于语义一致片段选择的视听事件识别与定位方法、系统、设备及介质

事件识别视觉特征听觉语义视听

基于多模态信号的运动生成方法、装置、设备及存储介质

运动生成模型运动特征运动生成方法信号语义