摘要
本发明公开了一种视频理解方法,包括:获取待解析视频对应的多模态数据;基于多模态数据进行特征提取处理,得到每种多模态数据对应的模态特征;通过自注意力机制,对模态特征进行增强处理,得到增强后的模态特征;通过多头注意力机制,对增强后的模态特征进行特征融合处理,得到初始融合特征;基于模态特征之间的相似度,对初始融合特征中每种增强后的模态特征的权重进行调整处理,得到目标融合特征;基于目标融合特征进行推理,得到待解析视频的理解结果。通过多模态特征融合与权重动态调整机制,结合自注意力与多头注意力机制实现跨模态信息互补,能够充分利用多模态数据互补性、提升视频理解准确性以及深入挖掘剧情深层含义。