一觉醒来,宇树带着最新开源模型来了!
这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律。
咱先瞧瞧真机部署后的表现。
玩堆积木,稳稳当当。重点是,右上角小窗口呈现出世界模型对后续动作视频的预测,能发现和实际操作情形十分吻合。
两只机械臂搭档干活也可以:
像收纳文具这类稍精细的活儿,都能轻松拿捏:
将相机放入包装盒,世界模型的预测同样和实际操作几乎无差:
官方称,UnifoLM-WMA-0属于UnifoLM(Unitree机器人统一大模型)系列成果,是团队专为通用机器人学习量身打造的,能适配多种机器人本体。
目前UnifoLM-WMA-0训练代码、推理代码、模型Checkpoints通通开源,GitHub迅速揽获100+Star。
网友看后纷纷点赞。
官方介绍了模型的训练策略,具体流程和设计思路可以拆解成这几步来看。
首先,团队先拿Open-X数据集对视频生成模型做了针对性微调,核心目的就是让模型原本的生成能力适配机器人的实际作业场景。
至于微调后模型在测试集上的实际生成效果,是这样婶儿的:
团队进一步提出了基于世界模型打造的策略架构,即UnifoLM-WMA-0。
这个架构里的世界模型不是单一模式运行,而是支持两种核心功能模式。
一种是决策模式,简单说就是能提前预测机器人和环境进行物理交互时的关键信息,辅助策略更精准地生成下一步动作。
另一种是仿真模式,主要是根据机器人已经做出的动作,生成高度还原真实场景的环境反馈,相当于给机器人模拟出一个逼真的交互环境。
针对这两种模式,团队在下游任务数据集上分别做了后训练优化。
以下是完整的系统架构及工作流程:
团队用了宇树科技公开的五个开源数据集,最终完成了全流程训练。
从测试结果来看,这个模型要是当作仿真引擎来用,效果突出。
只要给它“当前场景的图像”,再加上一定数量的“机器人未来要做的动作指令”,它就能实现可控的交互生成,生成的内容能精准匹配预期。
生成结果和原视频的对比情况,大家可以通过下面的图直观感受:
面对长程任务的持续交互生成也能应对,生成结果和原视频的对比如下:
GitHub:https://github.com/unitreerobotics/unifolm-world-model-action/tree/main
项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/
文章来自于微信公众号“量子位”,作者是“西风”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner