摘要
本公开涉及人工智能技术领域,尤其是涉及一种基于多模态数据的预测方法、装置、设备、介质及产品,所述方法包括:利用注意力机制算法,分别计算图像特征向量和文本特征向量的自注意力权重,分别计算图像特征向量和文本特征向量的交叉注意力权重;基于图像特征向量的自注意力权重和交叉注意力权重,更新图像特征向量,基于文本特征向量的自注意力权重和交叉注意力权重,更新文本特征向量;对更新后的图像特征向量和文本特征向量进行特征融合,获得预测结果。通过文本特征向量和图像特征向量的彼此交叉,计算各自的交叉注意力权重,能够进一步比较图像特征和文本特征的相似性,提高模型的识别准确度,提升模型对不确定性和模糊信息的处理能力。