摘要
本发明涉及多模态大模型技术领域,解决了传统大语言模型不具备处理多方面输入信息能力的技术问题,尤其涉及一种基于多模态大模型的三维场景理解方法,包括:建立包含点云‑图像‑文本对的数据集;将数据集输入编码模块中提取点云特征、图像特征和文本特征;建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块;将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合,能够完成在3D和2D上的多种视觉语言任务,并同时支持文本和语音输入,实现了一个通用、全面、鲁棒的多模态大模型。