一种基于查询引导的自适应三维大语言模型系统

申请号：CN202511369889

申请日期：2025-09-24

公开号：CN120849595B

公开日期：2025-12-26

类型：发明专利

摘要

本发明属于三维场景理解与多模态人工智能交叉领域，公开一种基于查询引导的自适应三维大语言模型系统。本发明提出了查询引导的自适应裁剪模块和多模态物体级特征增强模块，分别解决了三维场景中的冗余信息处理和语义信息不足的问题，包括四个步骤：三维视觉语言对齐、查询引导的自适应裁剪、多模态特征增强和语言模型的训练优化。通过多模态数据的联合处理，本发明能够在无标注或少标注数据集的情况下，实现高效、精确的三维场景理解。实验结果表明，本发明方法在多个标准数据集上的表现优于现有技术，特别是在三维问答和场景描述任务中，展现出了显著的精度提升与鲁棒性，尤其在处理复杂三维结构和细粒度问题时具有更高的准确性和可解释性。

技术关键词

大语言模型语义向量物体场景矩阵交叉注意力机制编码器语义相关度多模态特征视角裁剪模块图像序列文本三维结构数据像素信息处理