基于多模态大模型的视频时间戳事件识别与推理方法

申请号：CN202510234368

申请日期：2025-02-28

公开号：CN119723431A

公开日期：2025-03-28

类型：发明专利

摘要

本发明实施例涉及视频处理技术领域，具体公开了基于多模态大模型的视频时间戳事件识别与推理方法。本发明实施例通过对输入视频进行处理，提取视觉信息和文本信息；对视觉信息和文本信息进行交互和融合，生成视频事件语义表示；对视频事件语义表示进行事件识别，获取事件时间戳标记和事件逻辑推理。能够实现视觉和文本等多模态信息的深度融合与语义关联理解，解决了传统方法在模态间语义一致性和特征表达能力不足的问题，实现了多模态特征的深度融合与语义关联的精准理解，且能够将帧级别的时间信息作为视觉编码和文本特征进行视觉文本特征对齐，再进行视频级别建模，解决了传统模型无法直接捕捉到视觉事件发生时的精确时间帧的问题。

技术关键词

事件识别推理方法视频多模态特征融合注意力机制编码向量视觉特征提取文本语义序列图像块光学字符识别技术分析模块语音识别技术多模态信息

系统为您推荐了相关专利信息

基于渐进式注意力增强的光学遥感图像显著目标检测方法

光学遥感图像异构融合架构多分支结构层级解码单元

基于多模态特征融合的商业活力预测及商圈评价方法

商业增强型网络时序评分特征矩阵

基于空间并行交互的大幅面遥感影像整景语义分割方法

语义分割方法图形处理器解码器模型遥感影像地物分类多光谱卫星影像

基于多模态数据融合的电子制造智能化生产数据集生成方法及系统

多模态数据融合工业互联网标识解析生成系统视频监控数据系统模块