摘要
本发明涉及人工智能技术领域,可应用于智能体自主决策、金融科技及医疗健康等业务场景中,公开了一种多模态分层特征融合与决策方法、装置、设备及介质,包括:获取视觉、语言和动作数据,进行分层特征提取生成多模态初始特征集合;分析特征重要性并筛选降维,得到筛选后的多模态特征;对筛选后的多模态特征进行语义增强,生成多模态语义增强特征;对多模态语义增强特征执行跨模态注意力融合,得到跨模态融合特征;将跨模态融合特征输入语义推理网络,生成决策结果。本发明通过多层次筛选降维、语义增强及跨模态注意力融合,使模型能够准确利用多模态数据间的关键特征关系,减少冗余干扰,提升语义推理的准确性和决策效率。