基于多模态大模型的视频时间戳事件识别与推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的视频时间戳事件识别与推理方法
申请号:CN202510234368
申请日期:2025-02-28
公开号:CN119723431A
公开日期:2025-03-28
类型:发明专利
摘要
本发明实施例涉及视频处理技术领域,具体公开了基于多模态大模型的视频时间戳事件识别与推理方法。本发明实施例通过对输入视频进行处理,提取视觉信息和文本信息;对视觉信息和文本信息进行交互和融合,生成视频事件语义表示;对视频事件语义表示进行事件识别,获取事件时间戳标记和事件逻辑推理。能够实现视觉和文本等多模态信息的深度融合与语义关联理解,解决了传统方法在模态间语义一致性和特征表达能力不足的问题,实现了多模态特征的深度融合与语义关联的精准理解,且能够将帧级别的时间信息作为视觉编码和文本特征进行视觉文本特征对齐,再进行视频级别建模,解决了传统模型无法直接捕捉到视觉事件发生时的精确时间帧的问题。
技术关键词
事件识别 推理方法 视频 多模态特征融合 注意力机制 编码向量 视觉特征提取 文本 语义 序列 图像块 光学字符识别技术 分析模块 语音识别技术 多模态信息
系统为您推荐了相关专利信息
光学遥感图像 异构融合架构 多分支结构 层级 解码单元
商业 增强型网络 时序 评分特征 矩阵
语义分割方法 图形处理器 解码器模型 遥感影像地物分类 多光谱卫星影像
多模态数据融合 工业互联网标识解析 生成系统 视频监控数据 系统模块
设备运行状态 异常检测方法 注意力机制 多任务 节点