摘要
本发明实施例涉及视频处理技术领域,具体公开了基于多模态大模型的视频时间戳事件识别与推理方法。本发明实施例通过对输入视频进行处理,提取视觉信息和文本信息;对视觉信息和文本信息进行交互和融合,生成视频事件语义表示;对视频事件语义表示进行事件识别,获取事件时间戳标记和事件逻辑推理。能够实现视觉和文本等多模态信息的深度融合与语义关联理解,解决了传统方法在模态间语义一致性和特征表达能力不足的问题,实现了多模态特征的深度融合与语义关联的精准理解,且能够将帧级别的时间信息作为视觉编码和文本特征进行视觉文本特征对齐,再进行视频级别建模,解决了传统模型无法直接捕捉到视觉事件发生时的精确时间帧的问题。