仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25
5656点击    2025-03-19 14:34

从自动驾驶、机器人导航,到AR/VR等前沿应用,SLAM都是离不开的核心技术之一。


现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:


  • 准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化


  • 图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛


为了解决上述挑战,港科广团队提出全新解决方案——OpenGS-SLAM。仅凭RGB图像实现高精度定位与逼真场景重建。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


OpenGS-SLAM管线示意图


具体来说,研究人员采用了一个点图回归网络来生成帧间一致的点图。


这些点图储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息。


这使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。


此外,OpenGS-SLAM将相机位姿估计与3DGS渲染集成到一个端到端可微的管道中。


通过这种方式,实现了位姿和3DGS参数的联合优化,显著提高了系统的跟踪精度。


研究人员还设计了一种自适应比例映射器和动态学习率调整策略,能够更准确地将点图映射到3DGS地图表示。


值得注意的是,在Waymo数据集上的实验表明,OpenGS-SLAM将追踪误差降低至现有3DGS方法的9.8%。


研究人员还在新视角合成任务上建立了一个新的基准,达到了最先进的结果。


基于3DGS表示的RGB-only SLAM系统


来看具体技术细节。


在OpenGS-SLAM的管线示意图可以看到,每一帧都会输入一张RGB图像用于追踪。


当前帧和上一帧作为图片对输入到Pointmap回归网络进行位姿估计,随后基于当前的3D高斯地图进行位姿优化。


在关键帧处,系统执行地图更新,并通过自适应尺度映射器(Adaptive Scale Mapper)对Pointmap进行处理,以插入新的3D高斯点。


此外,相机位姿与3D高斯地图会在局部窗口内进行联合优化,确保更精准的追踪与场景重建。


追踪帧间点图回归与位姿估计


之前基于3DGS和NeRF的SLAM工作,主要集中在室内和小规模场景中,其中相机的运动幅度较小,视角密集。


在这种情况下,NeRF或3DGS可以直接用于优化相机位姿。


然而,户外场景通常涉及基于车辆的摄影,特征是运动幅度较大且视角相对稀疏。这使得直接优化相机位姿难以收敛。


鉴于点图包含视角关系、2D到3D的对应关系和场景几何信息,


OpenGS-SLAM团队提出了一种基于帧间点图回归网络的位姿估计方法,旨在实现稳健且快速的当前帧相机位姿估计。


他们利用一个预训练的点图回归网络,该网络结合了ViT编码器、带有自注意力和交叉注意力层的Transformer解码器以及一个MLP回归头,生成连续帧图像的点图。


特别地,两个图像分支之间的信息共享有助于点图的正确对齐。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25



位姿优化


为了实现精确的相机位姿追踪,团队基于3DGS可微光栅化管道,构建了一套可微的相机位姿优化方法。


定义光度损失为:


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


通过这些步骤,利用渲染函数的微分,将增量位姿更新与光度损失紧密关联。


这一策略使得相机位姿能够基于3DGS 渲染结果进行端到端优化,从而确保高精度且稳定的位姿跟踪。


3DGS场景表示


研究人员使用3DGS作为场景表示,提出自适应尺度映射器(Adaptive Scale Mapper),在关键帧时为地图插入新的高斯点。


利用先前获得的点图来映射3D高斯地图,由于帧间点图存在尺度不稳定的问题,


研究人员基于点匹配关系计算连续帧之间的相对尺度变化因子,以确保整个场景的尺度一致性。


建图高斯地图优化


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


优化过程仍然通过最小化光度损失进行。为了减少高斯椭球体的过度拉伸,研究人员采用了各向同性正则化:


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


高斯地图优化任务可以总结为:


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


自适应学习率调整


在经典的室内 SLAM 数据集中,相机通常围绕小范围场景运动并形成闭环,使高斯优化的学习率随迭代次数逐渐衰减。


然而,户外数据由前向车辆相机捕获,所经过区域不会重访,因此需要不同的学习率衰减策略。


为此,研究人员提出了一种基于旋转角度的自适应学习率调整策略:当车辆沿直路行驶时,学习率逐步衰减;


在遇到坡道或转弯时,动态提升学习率,以更有效地优化新场景。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25



接着计算旋转弧度:


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


当旋转角度达到90度时,累积迭代次数将被重置。


实验结果


如下图所示,在Waymo数据集的无界户外场景上,OpenGS-SLAM能渲染高保真的新视角图片,准确捕捉车辆、街道和建筑物的细节。


相比之下,MonoGS和GlORIE-SLAM存在渲染模糊和失真的问题。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


如下图所示,OpenGS-SLAM拥有明显更优的追踪性能,在面临大转弯时也能稳定收敛。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


精度方面,OpenGS-SLAM在Waymo数据集上实现了新视角合成(NVS)的最佳性能。在追踪精度方面,与GlORIE-SLAM相当;


而相比同样基于3DGS的SLAM方法MonoGS,OpenGS-SLAM误差降低至 9.8%,显著提升了系统的鲁棒性和准确性。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


消融研究结果显示,自适应学习率调整和自适应尺度映射均对整体性能产生积极影响,而Pointmap回归网络更是本方法的核心支撑,对系统性能至关重要。


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


总结


OpenGS-SLAM是一种基于3DGS表示的RGB-only SLAM系统,适用于无界的户外场景。


该方法将点图回归网络与3DGS表示结合,确保精确的相机姿态跟踪和出色的新视图合成能力。


与其他基于3DGS的SLAM系统相比,该方法在户外环境中提供了更高的跟踪精度和鲁棒性,使其在实际应用中具有较高的实用性。


论文链接:https://arxiv.org/abs/2502.15633


代码链接:https://github.com/3DAgentWorld/OpenGS-SLAM


官方主页:https://3dagentworld.github.io/opengs-slam/


文章来自于微信公众号“量子位”,作者 :Shark 


仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md