摘要
本发明属于三维场景理解与多模态人工智能交叉领域,公开一种基于查询引导的自适应三维大语言模型系统。本发明提出了查询引导的自适应裁剪模块和多模态物体级特征增强模块,分别解决了三维场景中的冗余信息处理和语义信息不足的问题,包括四个步骤:三维视觉语言对齐、查询引导的自适应裁剪、多模态特征增强和语言模型的训练优化。通过多模态数据的联合处理,本发明能够在无标注或少标注数据集的情况下,实现高效、精确的三维场景理解。实验结果表明,本发明方法在多个标准数据集上的表现优于现有技术,特别是在三维问答和场景描述任务中,展现出了显著的精度提升与鲁棒性,尤其在处理复杂三维结构和细粒度问题时具有更高的准确性和可解释性。