一种基于开放词汇的复杂场景理解方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于开放词汇的复杂场景理解方法及系统
申请号:CN202511254149
申请日期:2025-09-04
公开号:CN120747966B
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种基于开放词汇的复杂场景理解方法及系统,基于RGB‑D相机实现,方法包括:获取待研究复杂场景的点云数据;输入待研究复杂场景可能存在的物体名称的文本,提取文本特征;通过已训练好的3D特征提取模型对点云数据提取3D特征;对3D特征和文本特征的转置进行点乘,根据点乘结果得到语义标签值,确定待研究复杂场景包含的物体;3D特征提取模型的训练步骤包括:设计2D‑3D特征融合网络,通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练,引导融合后的特征向2D特征靠近,具有开放词汇能力,并和3D特征差距可控,避免丢失结构信息和语义信息,通过小物体加权优化,提高小物体类别的识别精度。
技术关键词
特征融合网络 特征提取模型 场景理解方法 文本 交叉注意力机制 物体 语义标签 归一化模块 特征提取模块 多视角 相机 理解系统 图像 坐标 数据 线性
系统为您推荐了相关专利信息
肺癌辅助诊断 呼出气 多头注意力机制 质谱 面积特征
状态空间模型 图像生成方法 联合损失函数 网络 补丁
编码 卷积模块 注意力机制 节点 关系建模
安检图像 图像块 意图类别 模型检索方法 文本
数据自动标注方法 大语言模型 样本 关系 文本