一种基于多模态交互与融合的三维物体兴趣区域检测方法
申请号:CN202510786029
申请日期:2025-06-12
公开号:CN120852734A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于多模态交互与融合的三维物体兴趣区域检测方法,涉及计算机视觉与三维数据处理技术领域。该方法通过构建包含交互信息的图片点云配对数据集,设计了一种针对点云兴趣区域识别的神经网络架构。首先分别提取点云特征与图片特征,通过融合模块计算特征空间中细粒度、高维特征的相似性,将形状区域中具有较高相似性的部分拉近。随后利用多头自注意力机制对模态特定区域之间的内在联系建模,并引入槽注意力机制进一步融合模态特定特征。兴趣区域识别模块通过多头注意力机制提取交互特征,结合卷积操作融合兴趣特征,最终在解码器中生成3D物体的兴趣区域预测结果。本发明简化了标注流程,提高了识别区域与标注区域的一致性。
技术关键词
神经网络架构
多头注意力机制
区域检测方法
多模态交互
点云特征
交互特征
图片
三维数据处理技术
特征提取模块
识别模块
物体
感兴趣
解码器
计算机视觉