
重构仿真数据的生产方式。
5月12日,虚时科技(Intime AI)与地瓜机器人联合开发的首款仿真空间数据生成平台——AnySceneGen正式发布。
这是一个面向具身智能训练的仿真空间生成平台。用户可以基于多模态输入,快速生成对应的三维仿真场景,场景中所有物体自带完整的物理属性,可直接导入Isaac Sim、MuJoCo等主流仿真平台,用于机器人训练、评测与数据采集。

AnySceneGen平台产品界面
这场合作真正值得关注的,是它直指一个被反复提及,却迟迟无解的行业难题。
过去两年,具身智能对训练数据的需求进入指数级增长阶段。仿真数据理论上可以突破真实采集的物理限制,通过算力并行无限扩展,且边际成本随规模递减。
但现实中,除了备受关注Sim2Real Gap问题外,真正可用于仿真的空间环境(Sim-ready 3D scene)的供给方式还停留在手工作坊时代。建模师逐个制作资产,手动搭建场景,再逐一配置物理参数。这套流程的成本和效率,让仿真数据规模化生产的理论优势始终无法兑现。
虚时科技要做的,就是打破这个局面。
虚时科技成立于2024年下半年,是一家专注于打造物理AI时代数据基础设施的初创公司,目前已获得奇绩创坛、宇迹科创的种子轮投资。
他们的切入点正是仿真空间规模化生产的底层难题——用模型替代人工,重构整个仿真数据的供给方式。
当前,具身智能已经全面进入数据驱动阶段。
过去一年,国内人形机器人公司密集融资,各家厂商的硬件能力快速迭代,Demo演示越来越流畅。但进入真实场景后,机器人往往容易“翻车”。因为真实环境千变万化,光照、物体摆放角度、背景干扰、没见过的新物体,任何一个变量超出训练分布,模型就可能崩溃。
要让模型具备这种泛化能力,需要的是海量、多样化、覆盖长尾场景的训练数据。
在具身智能可用的训练数据构成中,真实遥操作数据是机器人理解物理世界最直接的基准,对于模型校准不可或缺。
但它的局限性同样显而易见。
每一条有效数据背后,是工程师轮班、设备损耗和场地限制,人力和硬件成本高昂。同时,危险场景和长尾场景天然难以覆盖,并且无法适配强化学习、评测等环节,采集到的数据涵盖的物理信息也非常有限,可交互性较差。
更致命的是,这种方式的采集成本遵循线性增长逻辑。数据量每增加一个数量级,需要投入的人力和时间近乎等比例上升。这意味着真机数据更适合早期少数任务验证。一旦涉及规模化落地,这种方式的成本高不可及。
今年,虽然一些公司已经定下了全年采集百万小时级数据集的目标,但对于打造通用机器人的终极远景,这个体量还远远不够。
仿真数据也因此被推到台前。它的优势很直观,可通过并行算力规模化扩展,场景变量更加可控,能批量生成真机难以获取的因果维度训练样本。
对此,学界和产业界已有代表性案例。今年4月,苏度科技发布软硬件全栈自研的机器人系统Sudo R1,采用世界模型与强化学习一体化设计,在不使用任何真机数据的前提下,实现了关键任务近100%的Zero-shot成功率。
这个案例足以证明,仿真数据的价值上限,远未被触达。
但一个容易被忽视的悖论是,仿真数据本应突破真实数据采集的规模化瓶颈,可在现有生产流程中,能够用于闭环交互、实验和数据采集的仿真空间,仍主要依赖人工建模、人工布置和人工配置物理参数,其生产方式尚未实现规模化。
还原一下传统仿真数据生产流程,就能看到问题所在。
当前,虽然有各种基于生成或者重建的技术路径,但要么缺失空间智能,仍需依赖人工摆放;要么缺乏可交互能力。最终,行业常见做法仍是由建模师手工制作,调取或者生成多个3D资产,再把资产逐个摆放成空间场景,导入Isaac Sim、MuJoCo等仿真器,最后手动为每个物体配置材质、质量、摩擦系数等物理参数。
整个建模过程中,每一步都需要专业人员参与,且效率同样呈线性增长。一个有经验的建模师一天只能搭出少量可用场景,如果要生成100个布局不同的厨房,时间成本几乎是单个厨房的100倍。
如果企业沿用传统人工建模方法,在超大规模需求下,边际成本将急剧上升。如果仿真数据的生产方式不变,其在模型训练中的效率优势就永远停留在理论上。
这便是虚时科技正在撬动的杠杆。
创业前,王德駪对技术方向已有充分的系统性思考。此前,在亚马逊Alexa担任大模型组技术负责人期间,王德駪曾负责LLM的开发和部署,带领数十人研发团队,服务全球约6亿用户。

虚时科技CEO王德駪
过去几年,AI领域的热点仍聚焦在语言模型、图像生成和多模态理解上,“空间智能”和“世界模型”尚未成为行业共识。但基于在大模型一线研发和产业落地中的经验,王德駪很早形成了一个方向性判断。
在他看来,今天的AI之所以能在文本、图像等二维信息的理解与生成上逼近甚至超越人类,是因为互联网积累了海量的数字化语料和视觉数据。但人类智能从来不只是阅读文字和观看图像的结果,更关键的一部分能力,是在与物理世界进行交互、感知、操控和反馈的闭环中塑造出来的。
这意味着,如果AI真的要迈向通用,它就不能永远停留在屏幕里处理符号。它必须走出二维信息的茧房,进入三维的、有重力、有摩擦、有碰撞的物理世界,去理解空间、结构、尺度、材质和物理约束等更高维的信息。
而今天被行业反复讨论的物理AI,本质上也正是在回应一个问题——如何让AI从理解数字世界,走向理解物理世界,并在物理世界中完成感知、交互和决策。
沿着这个方向推演,物理AI当前最核心的落地场景,无疑是具身智能。王德駪明确判断,仿真数据固然是当前机器人训练中成本最低、产能最大的数据路线。但前提是,仿真数据的生产本身必须从传统的人工主导转向模型驱动。
理论上,大模型是规模化生成这类数据的最佳候选。但受限于当前语言和视觉模型的训练方式,模型并不具备理解和生成三维空间所需的“空间智能”。
此前,让模型学习空间智能的一种思路,是通过“重建+表征学习”提高模型的空间理解能力,但这难以让模型真正学习空间构造的底层逻辑,因此也难以形成真正的空间智能。
是否能基于大语言模型的底层能力,走一条更符合空间智能形成机制的路径?这正是王德駪技术构想的起点。
我们日常所处的大量空间,本质上都是由人类设计、建造和使用经验共同塑造出来的“人造空间”,内含一套可被拆解、抽象和复用的结构化逻辑。
专业建模过程,则是这套空间构造逻辑在数字世界中的显性表达。一个建模人员会先理解空间的功能、尺度、结构和关系,再逐步完成资产建模、布局组织、材质处理和可用性校验,不只是简单复刻空间的外观。
在王德駪看来,这本质上就是在空间生成领域的一条“思维链(CoT)”。
语言模型已被验证能够沿思维链学会深度推理,只要将人类构造空间的思维过程解构并重组,形成一套专属于空间构造的“CoT”,模型就能学会隐藏在人类建模背后的空间构造逻辑,进而让模型涌现出真正的“空间智能”。
空间生成能力跑通后,下一个挑战是,生成结果如何规模化投入具身智能的训练管线?
机器人需要在场景中进行千万次试错,每一次反馈都可能要求调整场景中的某个变量,而大模型的生成能力自带随机性,很难在这种高交互密度的训练管线中灵活应变。
如何实现生成结果的高可控性?
虚时科技更进一步,以代码作为输出,模型不直接输出3D视觉结果,而是生成建模过程对应的可执行代码,再将代码编译成最终的3D空间资产和场景——这是虚时科技最具突破性的创新。代码本身可检查、可修改、可约束、可迭代的特性,能够天然适配具身训练对场景变量的精细控制要求。
最终,虚时科技形成了独创的Code-to-Space技术方案以及自研空间智能模型,通过深度发掘空间感知层背后的空间结构、尺度关系、功能逻辑、交互方式和物理约束等空间信息,并将其压缩成可推理、可编辑、可执行的结构化表示,从而规模化生成高质量、高可控性的仿真空间。
这套技术方案的核心优势有三个层面:
第一,资产独立可编辑。 基于mesh的结构化表达,桌子是桌子,杯子是杯子,可以像搭积木一样自由移动、替换。而基于3D高斯泼溅或NeRF等隐式表征路线生成的3D空间,所有资产和空间粘连在一起,作为一个整体模型存在,无法进行分离、编辑和独立控制。
第二,生成空间自带物理属性。 模型通过数值化参数生成精准材质,例如透明度、折射率、反光率、粗糙度、金属度等。在此基础上,模型中的生成式物理仿真模块进一步结合资产几何、材质和空间上下文,预测重量、摩擦系数、碰撞相关参数等物理属性,并自动写入USD等通用仿真文件格式。传统仿真流程中需要人工手动配置的环节,被全面自动化。
第三,可规模化泛化。 传统基于扫描重建的数字孪生技术,本质上只能还原已有世界。而Code-to-Space不仅能还原特定场景,还能批量生成布局不同但空间合理的场景变体。这恰好切中了具身预训练对场景多样性的核心需求。
从更底层的视角看,Code-to-Space本质是对仿真空间生产范式的变革。
传统3D软件的可视化界面,本质上是面向建模师开发的操作层。用户在界面上的每一次操作,最终都需要通过底层代码被执行;而Code-to-Space是面向大模型、面向Agent开发的空间生成方式,由模型直接生成底层代码,并将其映射为可编辑、可交互、具备物理属性的仿真空间。
技术路径跑通后,公司开始思考如何将这套方案推向产业。
这正是王云峰加入虚时科技出任COO的核心原因。王云峰的履历横跨互联网和AI两个时代,他是搜狗搜索的核心创始成员之一,曾与王小川等五位联创共同打造搜狗搜索,担任过搜索架构负责人、阿里云高级专家。加入虚时科技前,王云峰曾任上市公司值得买科技CTO,并主导其AI应用研究院的技术建设与应用探索。

虚时科技COO王云峰
正因为完整经历过搜索引擎、推荐系统、大语言模型三个技术周期,王云峰对数据基础设施的价值有切身体会。这些技术的崛起,本质上都建立在大规模、高质量数据供给之上。物理AI要发展,回到最底层,同样需要先解决“数据从哪里来”的问题。“真实世界数据太贵、太慢、太难覆盖长尾场景,仿真数据生产又过度依赖人工,这里面一定会出现新的平台型公司。”王云峰表示。
因此,他加入虚时科技,正是要将Code-to-Space这条技术路径,转化为物理AI时代的数据生产基础设施,推向商业市场。
目前,团队分工明确:王德駪负责整体方向、核心技术研发与模型路线判断;王云峰负责商务、运营与外部合作的整体推进。一个主攻技术深度,一个主攻产业落地,形成互补。
2025年底,地瓜机器人关注到了虚时科技的技术与下游适配性。
整体来看,地瓜机器人有三大核心业务板块:芯片(硬件底座)、机器人平台能力(算法)、开发者生态(数据、工具)。这一布局某种程度上对标了英伟达“芯片+Omniverse+Newton生态”的架构。
在这套架构中,数据是连接硬件底座与算法能力的关键一环,直接决定了开发者生态的完整性和可用性。地瓜机器人也一直在寻找能够在这个环节进行更深战略布局的机会。
对地瓜机器人而言,仿真数据一直是内部算法研发的重要基础,也是完善下游开发者生态、服务下游客户的关键能力之一。问题在于,能够规模化供给高质量仿真数据的方案长期缺位。正是在这个背景下,虚时科技进入了地瓜机器人的视野。
地瓜机器人具身智能算法负责人何泳澔看重的,除了单个仿真空间的生成质量,还有仿真空间生成的多样性和泛化能力。
在他看来,具身智能训练需要两类数据,一是少量高精度场景,用于精细化调试;二是大规模、低成本、覆盖不同空间尺度、物体组合、布局关系、任务条件和长尾情况的泛化数据,用于预训练阶段的模型泛化能力建设。
许多厂商能够凭借前者打造出精美的机器人Demo,但后者的供给长期严重匮乏,这也正是机器人在真实场景中落地困难重重的根源所在。
他进一步指出,具身模型的训练,尤其是预训练阶段,数据的多样性远比重建精度更重要。而多数仿真数据生成方案始终无法同时满足“可生成、可编辑、可仿真、可规模化、可泛化”这五个条件,可这恰恰是仿真数据真正大规模进入训练管线的硬性门槛。
双方接触后,地瓜发现,虚时科技的Code-to-Space路径在这五个关键环节上形成了完整闭环。“从我们目前接触和验证过的技术路径来看,虚时科技的Code-to-Space是目前少数,甚至可以说是唯一真正能够同时兼顾高质量空间生成、物理属性生成、可编辑性和规模化量产的仿真空间生成方案。”何泳澔表示。

3D仿真空间生成效果图
基于这一判断,双方从数据验证走向平台共建,决定联合开发3D仿真空间生成平台。
当时,虚时科技刚完成Code-to-Space从0到1的技术验证,正处于从技术走向市场的关键阶段。对虚时科技而言,相比将数据卖给单一公司,更理想的模式是确立规模化生产仿真数据的技术标杆,占据更普适的生态位入口,将数据以平台化方式持续供给更多下游企业。
达成共识后,双方开始了为期三个月的技术验证。地瓜机器人的算法团队对生成质量、流程稳定性、物理属性可用性和格式兼容性进行了反复测试。
今年3月,双方签订战略合作协议,正式启动平台开发。
合作过程中,双方分工明确,形成优势互补。地瓜主要提供具身算法、工具链和开发平台能力;虚时科技主要提供仿真空间生成模型,规模化生成自带物理属性的仿真数据。
5月12日,AnySceneGen Beta版本正式上线。
AnySceneGen的核心目标,是为具身智能仿真训练批量化生成可闭环交互的仿真空间。用户可基于多模态输入快速生成不同类型的仿真空间,结合自身训练需求采集合成数据并进行模型训练。
在技术架构上,AnySceneGen平台采用基于mesh的结构化输出方案,相较于NeRF、3DGS等技术路径,更适用于机器人仿真训练、物理交互与可执行任务建模。
同时,AnySceneGen生成的场景具备高度可控和可编辑能力。开发者可根据训练需求,灵活调整空间布局、物体属性、交互逻辑、材质风格以及任务约束,快速构造具备多样性与泛化性的仿真训练环境。
此外,平台生成的空间不仅具备高质量视觉属性,也在生成过程中自动生成并写入碰撞体、物理材质、尺度关系、运动约束等物理属性信息,可进一步提升机器人在仿真环境中的交互真实性与训练稳定性,为后续Sim2Real泛化提供更有效的数据基础。
目前,平台已经深度集成虚时科技InteriorGen与地瓜机器人的TabletopGen能力,可生成桌面级与室内级仿真空间。
基于AnySceneGen,地瓜机器人的具身团队也已开始生成两类仿真数据:一类是Loco-manipulation,涉及硬件本体在仿真场景中的导航和操作数据;另一类是空间感知,涉及多目异构相机在空间中的深度或点云真值。
截至目前,前者已经生成超过100万episodes,后者已经生产超过1000万帧。

AnySceneGen平台生成的仿真空间
接下来,平台会分阶段推进场景覆盖能力——从桌面级场景和家庭空间起步,逐步延伸至办公场所、工厂、超市、商业区等室内场景。现阶段,平台重点聚焦机器人操作任务,后续将进一步支持导航与操作结合的复合任务,为下游开发者提供更丰富的训练场景支撑。

虚时科技仿真空间生成案例图
值得注意的是,AnySceneGen核心交付的是一套按需生成、持续供给的仿真数据生成能力。AnySceneGen的定位,更像是具身智能训练体系中的上游数据生成平台。
客观来看,这是一次典型的双赢。
地瓜机器人增强了自身开发者生态中数据供给的环节,进一步完善了“芯片+算法+开发者生态”的全链路布局。
虚时科技则在完成技术自证后,获得了一份来自头部生态玩家的关键产业认可。这并非偶然,而是其技术路线、生态位选择和下游验证积累的一次集中兑现。
AnySceneGen上线,是虚时科技的商业化起点,但远不是终点。
当前,具身智能训练的不同阶段对数据的需求正在分化。预训练阶段需要足够多样化的场景数据来提升泛化能力,这是仿真数据优势最明显的环节;后训练或微调阶段则需要可控变量、长尾场景和失败案例来进行系统评测和提升,仿真数据同样是有力补充。
长期来看,下游需求的细化将一步步倒逼上游数据供给体系加速产业分工。
「甲子光年」梳理发现,具身智能仿真训练数据的供给体系正在加速分层,大致可以划分为三层。
最上游是仿真空间生成,负责按训练需求规模化产出带物理属性的3D场景,直接决定数据供给的产能上限;中间层是仿真器,如Isaac Sim、MuJoCo等,承担物理计算与传感器渲染任务,目前这一层格局已相对成熟;最下游是具身训练,由机器人厂商和算法团队基于任务需求,将仿真数据导入训练管线。
过去,这三层之间的协作高度耦合,仿真场景严重依赖人工定制,生产效率低下,迫使许多下游厂商不得不自建数据团队,重复投入却难以规模化。
而随着仿真数据的战略价值被行业广泛认可,三层之间的专业化分工正在加速,尤其是上游仿真空间生成环节,正在成为一个独立的、平台化的新机会。
虚时科技选择切入的,正是这一环节。
公司基于Code-to-Space路径自研的空间智能模型,将传统人工仿真数据生产流程转化为模型驱动的平台化供给能力,规模化生成足够泛化、具备物理属性、可编辑、可交互的3D仿真场景。
这也决定了,虚时科技与市面上一些仿真数据供应商有本质区别。
多数供应商的核心模式,是围绕具身智能的具体任务,组织人力或半自动化地生产仿真数据,本质上解决的是“交付数据”的问题。而虚时科技的核心优势,是完成了从“人工交付数据”到“模型生成空间”的关键跨越,形成了一套可规模化生成仿真空间的底层模型能力。
这意味着,仿真数据并非这套模型能力的全部,而是其在具身智能训练场景下最直接、最刚需的交付形态。虚时科技真正瞄准的,是物理AI时代对三维空间数据的底层需求:持续生成足够多样、足够可控、足够可交互,并且能够直接进入训练管线的仿真空间。
他们之所以选择将商业化的第一步落在具身智能上,原因也很明确。在物理AI赛道中,具身智能的数据需求更刚性、规模化空间更大,也是检验基座能力、加速模型迭代的最优战场。在这个过程中,每一份进入真实训练流程的仿真数据,既是商业产出,也是模型能力的持续积累。
目前,行业已从“要不要用仿真数据”,进入“如何定义、采购和验收高质量仿真数据”的新阶段。围绕可训练场景的类型、必要物理属性、仿真平台适配、任务包组织方式和商业化计费方式,虚时科技已在与地瓜机器人及下游客户的验证中形成了一套初步框架,并正通过AnySceneGen将其产品化、平台化。

虚时科技产品流程图
从生态位上看,虚时科技专注于补齐物理AI演进过程中最上游、也最容易被低估的一环——可规模化生成的仿真空间数据。
AnySceneGen的上线,标志着这套能力已经从技术验证进入产业生态。对于具身智能而言,下一阶段的竞争不只在模型和本体,也在谁能持续生产足够多、足够泛化、足够可用的训练数据。虚时科技押注的,正是这个基础设施级的大风向。
(文中图片来源:虚时科技,封面图来源:AI生成)
文章来自于"甲子光年",作者 "刘杨楠"。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner