摘要
本发明公开了一种基于计算机视觉的物品识别系统,包括:多模态数据采集模块:通过多模态传感器阵列获取多模态数据;数据预处理模块:标准化多模态数据格式,生成时空对齐的多模态张量;特征提取模块:采用ResNet50、3D‑CNN、PointNet++分别从纹理、光谱和几何维度提取模态特异性特征;多模态融合模块:构建跨模态联合表征;自适应感知模块:基于自监督对比学习和3D‑STMN时空记忆网络建模光照不变性与场景动态,结合遮挡感知传播模块利用Kalman滤波预测被遮挡目标轨迹,生成环境感知参数集;识别引擎模块:集成YOLOv8检测、Mask R‑CNN分割及多模态决策树分类,结合深度数据输出目标边界框、类别以及置信度,生成结合深度数据的三维空间坐标。