摘要
本发明涉及一种基于统一空间映射的农业多模态问答模型及构建方法,本发明的构建方法通过自动化构建数据集,采用统一空间映射的多模态语义对齐方法,该方法通过独立映射图像和文本嵌入至同一特征表示空间,综合考虑图像间、文本间及图像与文本之间的关联关系,从而提升多模态数据的对齐效果。本发明将表达相同语义的图像或文本特征用集合表示,使集合内部表达同一语义的多模态特征向量能够在新的对齐空间中集中分布,同时降低表达不同语义集合之间的相似性,从而提高对齐的精度和内容输出的质量。此外,该方法在有效的多模态特征表示基础上,增强了对不同语义信息的理解和处理,从而提高了农业多模态问答模型的准确性和全面性。