摘要
本申请涉及计算机视觉技术领域,公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置,该方法包括:获取待处理的3D点云数据进行结构化处理,得到有序的点云块集合;获取与3D点云数据相关联的二维图像数据和/或文本描述数据,提取图像特征向量和/或文本特征向量,对有序的点云块集合进行统一序列化处理,生成融合多模态信息的3D点云特征序列;将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块,动态调整各模态特征的权重并进行融合,生成增强后的3D特征表示,基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力,实现高效鲁棒的3D场景理解。