摘要
本申请提供了一种基于物理运动与外观解耦的视频理解方法、装置和设备,涉及人工智能技术领域,旨在实现对视频的准确理解。该方法包括:对视频帧序列的各个视频帧进行特征提取,得到特征序列;利用双分支编码器对所述特征序列进行解耦,得到外观特征序列和初步运动特征序列,所述初步运动特征序列表征所述视频帧序列各个视频帧的运动特征,所述双分支编码器包括外观编码器和运动编码器;利用神经微分方程建模器根据所述初步运动特征序列,进行帧与帧之间的连续时间运动轨迹建模,得到运动特征序列;将所述运动特征序列、所述外观特征序列、以及用户提示语句,输入大语言模型进行跨模态信息融合和推理,得到所述用户提示语句对应的回答内容。