一种面向视觉文本交互的多模态数据融合方法及系统

申请号：CN202411115252

申请日期：2024-08-14

公开号：CN119203021A

公开日期：2024-12-27

类型：发明专利

摘要

本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统，其中，所述方法包括：对原始视频数据和原始文本数据进行预处理；基于时空图卷积模型对该原始视频数据进行视觉特征嵌入，获得视觉特征表示；基于BERT模型对该原始文本数据进行分层语义聚合处理，获得文本特征表示；基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示；对目标视觉表示和文本特征表示进行融合，获得视觉文本联合表示，并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中，语义融合层次浅和视觉文本交互简单的问题。

技术关键词

数据融合方法文本视觉特征运动特征节点 BERT模型矩阵卷积模型对象表达式视频实体语义模板集成视觉关系句法分析技术