摘要
本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统,其中,所述方法包括:对原始视频数据和原始文本数据进行预处理;基于时空图卷积模型对该原始视频数据进行视觉特征嵌入,获得视觉特征表示;基于BERT模型对该原始文本数据进行分层语义聚合处理,获得文本特征表示;基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示;对目标视觉表示和文本特征表示进行融合,获得视觉文本联合表示,并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中,语义融合层次浅和视觉文本交互简单的问题。