摘要
本发明涉及态势认知技术领域,特别是涉及一种海上多模态态势认知方法及装置,包括:对多模态大模型进行训练,以采用训练好的多模态大模型对海上态势进行预测;获取同一时间段的图像数据和文本数据;图像编码器对图像数据进行特征提取得到图像特征,文本编码器对文本数据进行特征提取得到文本特征;多模态融合器对图像特征和文本特征进行配对处理,得到跨模态特征,并根据跨模态特征分析海上态势。相较于现有的双塔架构的多模态大模型仅在最后一层进行图像特征和文本特征的交互和融合,本发明所采用的模型结构和特征融合的方法能够更加充分捕捉图像特征和文本特征之间的深层关系,对图像特征和文本特征的融合效果更佳。