摘要
本申请实施例提供了一种基于多模态的智能回复方法和装置、电子设备及介质,属于人工智能技术领域,应用于金融场景和医疗场景。该方法包括:获取目标问题信息的目标问题文本、目标问题图像及目标问题音频数据中至少两种模态数据,并将多模态数据进行特征提取和特征融合,将融合后的多模态特征、问题信息特征及目标知识图谱进行知识融合,得到目标融合知识特征,基于目标融合知识特征对目标问题进行问题回复生成。本申请实施例通过基于融合的目标问题信息、融合多模态特征及目标知识图谱的目标融合知识特征对目标问题信息进行回复,能够提供丰富的专业背景知识、视觉和听觉辅助信息,增强了用户对专业知识的理解,提高了智能回复的准确性。