一种基于多模态大模型的三维场景理解方法

申请号：CN202510022247

申请日期：2025-01-07

公开号：CN119416848A

公开日期：2025-02-11

类型：发明专利

摘要

本发明涉及多模态大模型技术领域，解决了传统大语言模型不具备处理多方面输入信息能力的技术问题，尤其涉及一种基于多模态大模型的三维场景理解方法，包括：建立包含点云‑图像‑文本对的数据集；将数据集输入编码模块中提取点云特征、图像特征和文本特征；建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块；将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合，能够完成在3D和2D上的多种视觉语言任务，并同时支持文本和语音输入，实现了一个通用、全面、鲁棒的多模态大模型。

技术关键词

场景理解方法点云特征编码模块多模态图像编码器物体解码网络语音生成图像特征图像增强文本编码器数据大语言模型解码器注意力