18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

5503点击 2024-12-09 14:49

世界模型被广泛认为是实现通用人工智能的关键技术，其核心能力在于模拟真实世界的动态变化，并为决策提供精准的未来状态预测。在自动驾驶领域，世界模型的应用尤为引人注目。然而，现有数据集在视频多样性和行为复杂性方面的不足，限制了世界模型潜力的全面发挥。为了解决这一瓶颈，中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

网站：https://drivingdojo.github.io/
论文：https://arxiv.org/pdf/2410.10738
代码：https://github.com/Robertwyq/Drivingdojo

世界模型的核心在于交互、知识以及泛化

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

DrivingDojo 数据集

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

DrivingDojo 数据集相较于传统的感知数据集，经过精心的挖掘与筛选，更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏，到突然窜出的动物、夜晚的篝火、路上的羊群，包含了海量的长尾驾驶场景，为世界模型的研究提供了坚实的基础。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

DrivingDojo 数据集包含大约 18k 个视频，平均时长约为 20 秒。整个数据集可以划分为三个子集，分别聚焦于驾驶行为、动态交互和世界知识的探索。

驾驶行为：还原真实驾驶操作的多样性

我们精心构建了一个名为 DrivingDojo-Action 的子集，全面覆盖驾驶操作的多样化场景，呈现纵向与横向行为的均衡分布：

纵向操作：包含加速、减速、紧急刹车和起停驾驶，精准展现车辆在速度调控中的动态表现。
横向操作：涵盖变道和车道保持，细致描绘车辆在空间选择和路径优化中的决策能力。

动态交互：捕捉复杂交通中的行为模式

除了在静态道路网络环境中进行导航外，建模多智能体之间的动态交互（如并入和让行）也是世界模型的一个关键任务。我们精心挖掘了这一子集，比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景，助力其更好地应对复杂的交通环境。

世界知识：赋能开放世界的智能理解

不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示，世界模型在像素空间中运行，展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态，例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解，世界模型为处理复杂交通情境提供了更可靠的基础。

推动智能交互与知识驱动的自动驾驶世界模型

真实多样的驾驶场景生成

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

轨迹控制的视频生成

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

给定初始帧和轨迹，世界模型预测未来的情景

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

预测不同的未来情景

我们提出了运动指令跟随的视频预测任务，这也是世界模型的核心。以往的研究主要依赖于定性观察，而在实际驾驶中，控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨迹，我们采用了 COLMAP 重建方法对生成的轨迹进行重建，从而实现粗略的定量评测。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

利用 COLMAP 估计生成视频的轨迹

生成能力的泛化

与以往在同一数据集上进行的生成测试相比，我们认为跨数据集的测试更为重要，这更好地体现了模型的泛化生成能力。在测试过程中，我们选择了 OpenDV 的子集来进行评估。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

我们也期望模型具备良好的泛化能力：如运动行为的泛化，以及跨数据集的运动行为泛化。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

1. 异常行为生成 2. 在 nuScenes 数据集实现倒车

交互行为的预测

这一部分的核心在于探索世界模型是否能够根据不同行为的输入预测智能体之间的交互动态。以下示例中，当自车选择停车时，模型预测右前方的车辆会抢占道路进行超车；而当自车选择继续前行时，模型则预测右前方的车辆会等待自车先通过。

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

长时间高质量驾驶视频生成

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

文章来自微信公众号“机器之心”

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

关键词: AI , DrivingDojo

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI