本文作者来自上海交通大学、英国曼彻斯特大学与香港中文大学。团队成员包括:徐博、王钰超、乐心怡(上海交通大学,自动化系),郭宇鹄、王昌凌(英国曼彻斯特大学,机械与航空航天工程学院),王文婷、任扬(香港中文大学,机械与自动化工程学系)。
表面重建的核心挑战,在于在少量视角下同时兼顾几何准确性、细节还原与结构完整性。现有神经隐式路线,在样本稀疏时容易出现跨视角对应不稳、边界发糊、局部缺失等现象;当可见区域有限、纹理不明显、遮挡复杂时,这些问题会被进一步放大。
为了补救,不少工作尝试引入单目深度、法线或稠密视角序列等外部几何线索,但这通常意味着额外的采集成本和不稳定的噪声来源,一旦误差被带入,反而会破坏原本已经较为准确的几何。
另一条思路是通过更复杂的网络结构或强先验来提升稳定性,可迁移性与训练成本却随之上升,且在真实场景下的鲁棒性并不总是稳定。
归根到底,稀疏视角的难点在于覆盖不足导致的匹配不稳定与形辐射歧义:同一结构在不同视角里的局部片段难以可靠对应,优化过程容易迷失在局部最优。
直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。

该工作来自上海交通大学,曼彻斯特大学和香港中文大学的团队,目前已被 IEEE Transactions on Visualization and Computer Graphics(TVCG)接收。

方法概览
SERES 的设计围绕两条主线展开:语义匹配先验与区域级正则。整体以训练期插件的方式接入常见主干,如 NeuS 或 Neuralangelo,不改变体渲染与隐式表面的基本表达,仅在训练中提供额外的线索与约束。

图 1 SERES 方法流程
语义匹配先验
首先是语义匹配先验。直观地说,作者让 “来自他视角的提醒” 在训练中始终存在。具体做法是,从每张输入图像中自动提取一组稳定的语义块与几何原语。语义块侧重于外观与语义的一致性,几何原语则对应更具结构意义的区域。随后,对这些语义块提取图像级特征,并在多视角之间进行交互式的对齐与聚合,让不同视角中 “看似相似” 的部分彼此对上号。这样得到的先验信息被作为额外输入喂给重建主干,使得主干在每一次更新时,都能显式感知来自其他视角的对应关系。

图 2 语义匹配质量对重建质量的影响
这种做法的好处在于,模型不再孤立地依赖单一视角的证据,而是在训练的每一步都被提醒哪些细节需要被保留、哪些边界应当对齐、哪些区域存在歧义需要更谨慎地处理。对于稀疏视角尤其是极少视角的情况,这份提醒能显著减少错配带来的形状扭曲与边界模糊。
点提示引导的区域级正则
仅有像素级误差往往不足以约束形状的全局一致性,尤其在纹理稀薄或反射复杂的区域,像素级监督容易放大噪声。SERES 在图像空间引入了可解释的区域一致性。基于前述的几何原语,作者为每张图像得到一组覆盖关键部件的区域分割与掩膜。在训练过程中,这些可解释的区域与模型渲染得到的语义分布进行对齐,形成面向区域的一致性约束。它鼓励模型在真实边界处给出更清晰、稳定的表面表达,在容易产生歧义的部分尽量减少破碎或漂移。与仅依赖像素损失不同,区域级正则在结构层面提供了 “形状应该如何对齐” 的强信号,能有效抑制噪声碎片,让最终的网格更干净、曲面更连贯。

图 3 语义属性体渲染结果
从工程实现角度看,SERES 的两条主线都只在训练期生效,不改变推理流程。语义先验分解为稳定分块、特征提取与跨视角聚合三步,接口简单;区域级正则以可解释的掩膜为锚,和主干的渲染分布对齐即可。整体额外计算开销小,训练时间仅有小幅增加,对不同主干的适配也无需侵入式改造。
消融实验表明(见实验部分),缺失语义匹配先验时,跨视角错配与形变明显增多;去掉区域级正则时,网格易出现噪声与断裂;而使用未优化或质量不高的先验,同样会拖累最终几何。
实验
在 DTU 的稀疏多视角设置中,SERES 作为训练期插件显著提升了重建质量与新视角合成质量。与主流基线相比,画面质量指标在多组场景中全面优于对应的原始主干,同时几何误差在从极少到较少视角的范围内稳定下降。随着视角数从极少逐步增加,误差的下降趋势依旧保持,说明这套先验与正则对不同稀疏程度都有稳定收益。


图 4 DTU 重建效果

图 5 视角数变化的影响
在 BlendedMVS 以及多种真实场景(高反射、复杂拓扑、低纹理) 中,SERES 输出更完整、更干净的几何,在难匹配区域有效减少断裂与噪声,体现出良好的鲁棒性与通用性。
与仅依赖像素级误差不同,区域级正则的价值在真实边界处更为直观。很多难例,如重复纹理、细杆与枝类的复杂拓扑,往往在像素层面难以稳定监督。区域级约束将这些区域包裹起来,以更高层次的一致性去牵引优化,使得模型对边界位置的判断更果断,对结构连贯性的把握更稳定,从而减少边缘糊、壳体破洞以及不必要的表面漂移。对少视角训练而言,这种结构层面的 “拉紧” 尤为关键,它相当于给优化过程加上了可靠的护栏。

图 6 BMVS 重建效果

图 7 实拍场景重建效果
消融实验显示,缺失语义匹配先验或区域级正则都会明显拉低重建质量,这两者是互补且必要的。

图 8 消融实验结果
结论
SERES 把跨视角的语义一致性与结构层面的区域约束,变成一种低成本、可解释、可复用的训练期先验。它以即插即用的方式接入现有的隐式重建框架,不需要额外传感器或复杂改造,即便在很少的视角下,也能恢复边界清晰、结构完整、细节可靠的表面。面对更大规模场景、更复杂材质与光照等现实挑战,这一思路仍有充分拓展空间。对工程团队而言,SERES 的接口简单、迁移门槛低、真实场景友好,适合直接集成到当前的稀疏三维重建工作流中,用更少的视角获得更高保真的几何重建。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)