一种基于多模态语义融合的智能图像数据标注方法及系统
申请号:CN202510688288
申请日期:2025-05-27
公开号:CN120544164A
公开日期:2025-08-26
类型:发明专利
摘要
本发明适用于图像标注及智能交通技术领域,提供了一种基于多模态语义融合的智能图像数据标注方法及系统,该方法包括以下步骤:获取同一时空的图像数据、点云数据、语音数据以及环境信息;对图像数据进行语义分割,得到图像分割信息;将点云数据与图像数据进行对齐处理,生成与图像像素对齐的3D点云;根据3D点云,推断被遮挡目标的几何轮廓,得到点云几何信息;结合环境信息,将图像分割信息与点云几何信息进行融合,得到图像融合信息;结合语音数据,根据图像融合信息对图像数据中的可见目标以及被遮挡目标进行带有行为语义的标注。本发明通过融合图像、语音和点云等多模态数据,可以准确对复杂场景中被遮挡目标进行语义标注。
技术关键词
图像融合信息
图像分割信息
数据标注方法
数据标注系统
多模态
图像像素
语音
3D点云
数据对齐模块
语义向量
深度学习模型
坐标系
聚类
矩阵
轮廓
智能交通技术