摘要
本申请涉及一种视频理解方法、视频理解系统和计算机设备,通过获取流媒体数据和文本数据,基于流媒体数据提取出第一音频特征向量和第一图像特征向量,基于文本数据提取出文本特征向量;分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量;将音频特征增强向量和图像特征增强向量映射至文本向量空间,并与文本特征向量进行融合,得到多模态特征融合向量;以多模态特征融合向量作为多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至损失函数收敛;将目标视频输入至经训练的多模态大模型进行处理,输出视频理解内容;解决了单模态偏差问题。