摘要
本发明提供了一种多模态数据的特征融合方法、系统、设备及介质,包括:获取文本数据和视频数据,对文本数据和视频数据进行特征提取,分别得到文本特征和图像特征;将文本特征和图像特征分别划分多个文本片段和多个图像片段;构建记忆单元,使用记忆单元生成每个文本片段或图像片段的历史信息;将所有文本片段和图像片段以及对应的历史信息输入到特征提取模型中进行特征提取,得到深度文本特征和深度图像特征;将深度文本特征和深度图像特征进行融合,得到融合特征。本发明解决了现有技术中存在的对具有长距离依赖且时空特征明显的动态特征提取困难,以及多模态特征融合时,简单的特征拼接或加权平均会损失关键信息的问题。