一种基于多模态大模型的视频时空理解方法、装置及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的视频时空理解方法、装置及介质
申请号:CN202511365934
申请日期:2025-09-24
公开号:CN120877194B
公开日期:2025-11-25
类型:发明专利
摘要
本发明属于计算机视觉领域,具体涉及一种基于多模态大模型的视频时空理解方法、装置及介质,将多模态大语言模型和掩码分割模型相连,利用多模态编码器编码视频特征,针对时间任务和空间任务采取不同数量的采样帧数和视觉标记形式表示。视觉标记对齐到文本空间后与文本标记一起输入到大语言模型,解码得到对应的文本回答。对于时间任务,时间戳直接从文本回答中提取,空间信息则通过<SEG>标记编码,其嵌入作为提示输入到掩码解码器,实现采样帧的掩码生成和整个视频的掩码传播。与现有技术相比,本发明实现了细粒度视频时空理解的联合训练,除了对视频的整体理解外,可以实现更精确的事件时空定位。
技术关键词
多模态 文本 大语言模型 标记 视觉特征 多层感知机 解码器 编码器 记忆 计算机视觉 注意力机制 视频编码 输出特征 程序 图像块 视频帧
系统为您推荐了相关专利信息
实体解析方法 自然语言理解模型 文本 计算机程序产品 自然语言解析
网络故障节点 天地一体化信息网络 网络节点 海量告警 标记
大语言模型 图片 数据 答案 场景
模态医学影像 多尺度特征 协同注意力 正电子发射断层扫描 计算机断层扫描
BERT模型 编码方法 关键词 深度语义模型 语义匹配算法