摘要
本申请实施例涉及一种基于多模态的数据分类方法、系统、设备及介质,本方法通过引入跨模态语义拓扑对齐机制,生成能够表征两个图结构对应节点之间的深层语义契合度的对齐向量,进而利用对齐向量确定图像模态和文本模态对应的可信度权重,最后根据第一可信度权重与第二可信度权重,融合图像特征和文本特征,利用融合特征实现目标电子书对应的分类结果。本方法通过深度解析图像与文本的语义图结构并进行拓扑对齐,创新性地依据对齐向量动态评估模态可信度并自适应加权融合,实现了超越图像的像素和文本的词汇级别的语义理解,提升了对目标电子书进行分类的准确性。