基于图像文字跨模态迁移的3D任务处理方法及装置

申请号：CN202510928641

申请日期：2025-07-04

公开号：CN121033596A

公开日期：2025-11-28

类型：发明专利

摘要

本申请涉及计算机视觉技术领域，公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置，该方法包括：获取待处理的3D点云数据进行结构化处理，得到有序的点云块集合；获取与3D点云数据相关联的二维图像数据和/或文本描述数据，提取图像特征向量和/或文本特征向量，对有序的点云块集合进行统一序列化处理，生成融合多模态信息的3D点云特征序列；将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块，动态调整各模态特征的权重并进行融合，生成增强后的3D特征表示，基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力，实现高效鲁棒的3D场景理解。

技术关键词

文本特征向量图像特征向量融合多模态信息二维图像数据跨模态图像特征提取模型 3D点云数据模态特征序列计算机视觉技术网络适配器特征提取模块动态语义标签