基于物理运动与外观解耦的视频理解方法、装置和设备

申请号：CN202511139486

申请日期：2025-08-14

公开号：CN120976835A

公开日期：2025-11-18

类型：发明专利

摘要

本申请提供了一种基于物理运动与外观解耦的视频理解方法、装置和设备，涉及人工智能技术领域，旨在实现对视频的准确理解。该方法包括：对视频帧序列的各个视频帧进行特征提取，得到特征序列；利用双分支编码器对所述特征序列进行解耦，得到外观特征序列和初步运动特征序列，所述初步运动特征序列表征所述视频帧序列各个视频帧的运动特征，所述双分支编码器包括外观编码器和运动编码器；利用神经微分方程建模器根据所述初步运动特征序列，进行帧与帧之间的连续时间运动轨迹建模，得到运动特征序列；将所述运动特征序列、所述外观特征序列、以及用户提示语句，输入大语言模型进行跨模态信息融合和推理，得到所述用户提示语句对应的回答内容。

技术关键词

运动特征序列视频理解方法大语言模型运动编码器视频帧样本语句跨模态分支轨迹自然语言物理神经网络参数人工智能技术注意力机制模板