基于图像文字跨模态迁移的3D任务处理方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于图像文字跨模态迁移的3D任务处理方法及装置
申请号:CN202510928641
申请日期:2025-07-04
公开号:CN121033596A
公开日期:2025-11-28
类型:发明专利
摘要
本申请涉及计算机视觉技术领域,公开了一种基于图像文字跨模态迁移的3D任务处理方法及装置,该方法包括:获取待处理的3D点云数据进行结构化处理,得到有序的点云块集合;获取与3D点云数据相关联的二维图像数据和/或文本描述数据,提取图像特征向量和/或文本特征向量,对有序的点云块集合进行统一序列化处理,生成融合多模态信息的3D点云特征序列;将3D点云特征序列、图像特征向量和文本特征向量输入门控融合模块,动态调整各模态特征的权重并进行融合,生成增强后的3D特征表示,基于增强后的3D特征表示执行3D下游任务。本申请能够提高3D下游任务在数据稀缺场景下的鲁棒性、准确性和泛化能力,实现高效鲁棒的3D场景理解。
技术关键词
文本特征向量 图像特征向量 融合多模态信息 二维图像数据 跨模态 图像特征提取模型 3D点云数据 模态特征 序列 计算机视觉技术 网络 适配器 特征提取模块 动态 语义标签