基于三维场景与语言数据联合的数据增强方法、装置及系统

申请号：CN202510751059

申请日期：2025-06-06

公开号：CN120671074A

公开日期：2025-09-19

类型：发明专利

摘要

本申请提供了一种基于三维场景与语言数据联合的数据增强方法、装置及系统，方法包括：获取3D场景数据以及对应的文本标注数据；分别对场景数据和文本标注数据进行预处理，得到预处理后的3D‑语言联合数据；对预处理后的3D‑语言联合数据依次进行多模态数据增强，语义质量过滤处理，得到目标3D‑语言联合数据集。本申请通过整合3D点云数据、RGB‑D图像、问答对和密集描述等多种数据源，利用数据预处理、多模态数据增强和语义质量过滤，实现高质量大规模数据集的自动构建，能够在提高3D场景理解和视觉问答任务的数据质量的同时，增强数据的多样性和泛化能力，为3D视觉理解、机器人任务规划等应用提供有力支持。

技术关键词

文本三维点云数据计算机可执行指令场景多模态编码特征语法结构融合特征自然语言语义图像同义词交互特征嵌入特征视觉预训练语言模型 3D点云数据处理器可读存储介质