从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。
为了突破这一局限,来自北京大学、字节跳动和卡耐基梅隆大学的研究者们联合提出了 PartCrafter。这款创新的模型开创了结构化生成的新理念,能够直接从单张 2D 图像生成由多个、具有语义意义且可独立操作的部件构成的复杂 3D 网格模型。PartCrafter 显著增强了 3D 生成的可控性与可解释性,为更直观、模块化的内容创作流程铺平了道路。
该研究已被顶级人工智能会议 NeurIPS 2025 接收,并在 GitHub 上迅速狂揽 2000+ Stars,引发了社区的广泛关注。本研究的 Project Lead 为 Panwang Pan。



Partcrafter 是一个结构化的 3D 生成模型,无需分割步骤,可以秒级生成带多个部件的 3D Mesh 表示。
在当前的 3D AIGC(人工智能生成内容)领域,主流的生成模型普遍采用「黑箱」模式,将三维物体作为一个不可分割的整体进行处理。这种「整体式」范式虽然能生成外观逼真的模型,但其组件(如椅子腿、汽车轮子)与主体融合,无法进行单独的移动、旋转或替换。这种不可编辑性和灵活性缺失,极大地限制了 3D 内容在各行各业的实际应用价值。
为了实现部件级别的编辑,传统的流程通常依赖于一个「分割-重建」的两阶段管线:首先进行图像语义分割来识别部件,随后对每个部件进行独立的三维重建。然而,这种方法存在两大弊端:缓慢且脆弱。它不仅耗时(通常需要 20 分钟以上),而且极易出现错误累积 —— 初始 2D 分割阶段的任何失误都将永久性地破坏后续的所有重建结果和最终的 3D 模型。
为了突破这些局限,研究团队提出了 PartCrafter,旨在构建一个端到端的结构化三维生成体系。PartCrafter 能够直接从单张二维图像生成包含多个独立部件的复合网格模型,彻底解决了现有方法的编辑难题。
通过这种统一的系统,PartCrafter 在保证生成质量的同时,实现了秒级速度与前所未有的可控性,为 3D 内容创作流程铺平了更直观、更模块化的道路。

Partcrafter 网络结构设计。
PartCrafter 的核心在于其创新的网络结构设计,它巧妙地解决了如何在生成过程中既保持部件独立性又确保整体结构一致性的难题。
为了让模型能够理解「部件」这一概念,PartCrafter 为每个三维物体的不同部件都分配了一组相互独立的潜在变量(Latent Tokens)。这种设计从根本上将物体的表示从单一整体解构为多个部分的组合。
此外,为了让模型能够更好地区分和识别不同的部件(例如,椅子的「腿」和「靠背」),研究者为每一组部件的 token 引入了一个可学习的「部件身份嵌入」(Part Identity Embedding)。这种嵌入向量像一个独特的「身份证」,强化了模型对每个部件语义属性和独立身份的感知能力。
在生成过程中,各个部件独立生成然后拼接在一起是行不通的,这会导致部件之间布局混乱、比例失调。为此,PartCrafter 设计了一种新颖的局部-全局联合去噪 Transformer 架构,通过两个协同工作的分支来确保生成结果的内在一致性与整体协调性。
在整个去噪生成过程中,输入的图像条件(Condition)会引导模型生成既符合图像内容、又具备独立部件结构、同时整体形态协调连贯的三维模型。
高质量、大规模且带有精确部件标注的 3D 数据集是训练结构化生成模型的关键。然而,现有的大规模 3D 数据集(如 Objaverse、ShapeNet、ABO 等)虽然模型数量庞大,但普遍缺乏精细的部件级标注信息。
为了解决这一数据瓶颈,PartCrafter 团队通过系统化地挖掘和整合多个主流 3D 资源库,自主构建了一个专为部件级生成任务服务的大规模数据集。该数据集共包含约 13 万个 三维对象,其中约 10 万个拥有精确的多部件标注。
在构建过程中,研究团队制定了严格的筛选标准,包括模型的材质贴图质量、部件数量的合理性以及部件间的平均交并比(IoU)等,以确保数据质量。最终,研究团队精选出约 5 万个具备高质量部件标签的对象,共计含有超过 30 万个独立的、可用于监督训练的三维部件。这个数据集的开放将为结构化 3D 生成领域的研究提供宝贵的资源。

研究团队在两种不同的应用场景中,对 PartCrafter 进行了全面而丰富的实验验证:它既能用于生成具有独立部件的 3D 单个物体,也能扩展到创建由多个物体组合而成的 3D 场景。
在物体部件级的生成任务上,与同样探索部件级生成的 HoloPart 模型相比,PartCrafter 在多项关键指标上均表现出显著优势。
在给定单张图像后,PartCrafter 仅需约 34 秒即可生成高保真、部件可拆分的三维网格,而 HoloPart 不仅速度更慢,还依赖于耗时的后处理分割步骤,且生成精度较低。

在场景级的物体组合生成任务上,研究团队将 PartCrafter 与 MIDI 模型进行了比较。实验设置在一个从 3D-Front 数据集中挑选的、包含大量严重遮挡场景的子集上。
结果表明,当物体间存在遮挡时,依赖真实分割掩码(Ground Truth Segmentation Masks)的 MIDI 模型性能会大幅下降,而完全不依赖任何分割信息的 PartCrafter 则依然能保持稳定、高质量的生成效果。

从定性结果来看,PartCrafter 能够生成几何结构清晰、细节丰富的 3D 物体与场景。更重要的是,其组合式潜在空间的设计赋予了用户前所未有的控制能力。通过在生成时指定潜在向量集合的个数,用户可以灵活地控制生成模型的部件分割粒度。
例如,对于同一个物体,用户可以选择将其生成为由 3 个部件组成的粗粒度模型,也可以选择生成为由 8 个部件组成的细粒度模型,这种控制能力在个性化内容创作中具有巨大的应用潜力。


PartCrafter 的组合式潜在空间设计使得颗粒度控制成为可能。通过指定潜在向量集合的个数,用户可以实现部件分割颗粒度的控制。

PartCrafter 的提出,标志着 3D 生成技术从「整体式」向「结构化」 迈出了关键一步。它通过一种巧妙的架构设计,在不牺牲生成质量和效率的前提下,成功地将可解释性与可控性引入到三维生成流程中。
这种直接生成可编辑部件的能力,不仅极大地拓宽了 3D AIGC 技术的应用场景(例如在游戏、虚拟现实、工业设计等领域快速生成可定制的 3D 资产),也为后续研究如何构建更加模块化、层级化和语义化的三维世界模型提供了全新的思路。



PartCrafter 生成的、带有清晰部件结构的高质量 3D 网格模型,直接导入到工作流中,进行后续的渲染、动画制作或游戏开发,极大地提升了其实用性和工作效率 (Credit goes to scenario)。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI