基于三维场景与语言数据联合的数据增强方法、装置及系统
申请号:CN202510751059
申请日期:2025-06-06
公开号:CN120671074A
公开日期:2025-09-19
类型:发明专利
摘要
本申请提供了一种基于三维场景与语言数据联合的数据增强方法、装置及系统,方法包括:获取3D场景数据以及对应的文本标注数据;分别对场景数据和文本标注数据进行预处理,得到预处理后的3D‑语言联合数据;对预处理后的3D‑语言联合数据依次进行多模态数据增强,语义质量过滤处理,得到目标3D‑语言联合数据集。本申请通过整合3D点云数据、RGB‑D图像、问答对和密集描述等多种数据源,利用数据预处理、多模态数据增强和语义质量过滤,实现高质量大规模数据集的自动构建,能够在提高3D场景理解和视觉问答任务的数据质量的同时,增强数据的多样性和泛化能力,为3D视觉理解、机器人任务规划等应用提供有力支持。
技术关键词
文本
三维点云数据
计算机可执行指令
场景
多模态
编码特征
语法结构
融合特征
自然语言
语义
图像
同义词
交互特征
嵌入特征
视觉
预训练语言模型
3D点云数据
处理器
可读存储介质