摘要
本申请涉及知识库构建技术领域,提供一种基于多模态大语言模型的知识库构建方法及装置,该方法包括:获取多模态数据及其对应的类别标签,其中,所述多模态数据包括图像、视频、音频、点云、热成像、事件和文本中的至少一种;基于预设的提示词模板,通过多模态大语言模型生成与所述多模态数据对应的文本描述;通过预训练的文本编码器计算所生成的文本描述与对应的所述类别标签的余弦相似度;根据所述余弦相似度高于预设阈值的文本描述,构建对应类别的知识库。以此方式,实现图像、音频、点云等异构模态与文本的语义对齐,解决传统方法中模态间语义割裂的问题。