三维空间指代推理方法、装置、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
三维空间指代推理方法、装置、电子设备及存储介质
申请号:CN202510739906
申请日期:2025-06-04
公开号:CN120633854A
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质,涉及数据处理技术领域,方法包括:获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令;其中,RGB‑D图像数据为:包含彩色视觉信息和深度信息的多模态图像数据;将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中,输出包含显式推理过程的文本和符合空间约束的目标点坐标;其中,视觉语言大模型为:通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到;视觉语言大模型包括独立的深度编码器,深度编码器用于处理深度信息。通过本发明提供的方法,提升了在复杂空间指代任务中的综合表现。
技术关键词
深度编码器 推理方法 大语言模型 自然语言 彩色视觉信息 图像 坐标 文本 图片 推理装置 多模态 指令 非暂态计算机可读存储介质 格式 编码器参数 电子设备 数据处理技术