从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
9020点击    2025-12-04 09:57

如今 LLM 的语言理解与生成能力已展现出惊人的广泛适用性,但随着 LLM 的发展,一个事实越发凸显:仅靠语言,仍不足以支撑真正的智能。


从更本质的角度看,人类处理世界的方式从来不只依赖文字,而是通过视觉、空间感知、物理直觉与行动能力等共同构成完整的认知体系。语言只是对三维世界的“有损压缩”:它记录结论,却省略过程;它表达结构,却隐藏动态。而真正的智能,源于不断与世界互动、不断在空间中推理和行动的能力。


正因如此,构建能够“理解并操作世界”的空间智能(Spatial Intelligence)与世界模型(World Models)成为继 LLM 之后的关键方向。


2024 年,李飞飞、Justin Johnson 等学者创立了 World Labs,今年 11 月推出了 Marble 这个 3D 世界生成模型。团队尝试突破模型“只懂文本”的限制,让模型具备在三维环境中定位、推理、模拟、生成甚至执行任务的能力。这不仅意味着新的技术路线,也意味着新的 AI 价值尺度:从语言走向世界、从描述走向交互、从静态认知走向动态智能。


本文整理了李飞飞和 Justin Johnson 的最新访谈,访谈从人类智能的演化、语言的局限、视觉与物理推理的重要性等角度出发,探讨为何空间智能是通往下一代 AI 的关键路径,以及世界模型如何成为构成这一转变的基础设施。


01.

LLM 盛行的今天,为什么我们需要空间智能?


李飞飞给空间智能下了一个清晰的定义:空间智能不仅仅是计算机视觉中传统的物体识别(Object Recognition),而是指一种能够在三维空间中进行推理(Reasoning)、理解(Understanding)、移动 (Moving)和交互(Interacting)的深层能力。在这个定义中,推理是关键环节。


此外,她还引用心理学家 Howard Gardner 的多元智能理论指出,人类智能本身就是多维度的。空间智能与 Linguistic Intelligence(语言智能)并非对立,而是互补的。如果说 LLM 让我们拥有了处理符号逻辑的能力,那么空间智能则是要补全我们在视觉、空间以及物理交互上的智能,这是通往 AGI 不可或缺的一环。


多元智能理论(Howard Gardner,1983)认为,人类至少具备八种相互独立的智能(如语言、逻辑-数学、空间、人际等),而不是只有传统所强调的单一智力,换句话说,每个人都有不同的智能组合,没有一种智能能完全代表“聪明”。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


人类进化的启示


当我们以人类智能为蓝本构建 AI 时,那就必须回溯人类智能进化的历程。李飞飞指出,自然界在进化过程中投入了巨大的“沉没成本”来构建感知系统。从生物演化来看,大自然花费了整整 5.4 亿年来优化动物的视觉感知与空间行动能力。对于任何生物而言,看清世界、理解空间、并在此基础上进行移动和生存,是生命最底层的操作系统。相比之下,人类语言的形成历史极其短暂,最乐观的估计也仅有约 50 万年。


这种巨大的时间跨度差异揭示了一个深刻的悖论:对于人类而言,视觉和空间行动看似是 “毫不费力 (Effortless)” 的,但这并不意味着它简单。相反,李飞飞认为,正是因为自然界花费了数亿年来极度优化这一系统,才让我们在睁开眼睛的瞬间就能“看见”,也就是在出生的那一刻就几乎具备了视觉能力。这是一种经过了亿万年调试的“超级算法”。


相比之下,语言是人类后天习得的技能。人类需要在学校里花费数年时间学习语法、写作和表达,这让我们主观上觉得语言很难,从而误以为掌握语言才是智能的高级表现。


但事实上,让 AI 理解像素、理解三维空间中的物理规律,这个难度丝毫不亚于、甚至在某种程度上高于处理符号化的语言。如果我们忽视了这 5.4 亿年的进化积淀,仅仅试图通过 50 万年的语言来构建 AGI,那是不合理的。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


语言是对 3D 世界的“有损压缩”


Justin Johnson 进一步从信息的角度阐述了语言的局限性。他认为,像素(Pixels)和视觉信号是一种更接近“无损(lossless)”的表征方式。


在现实世界中,我们通过眼睛接收光信号,这实际上是处理“生物像素(biological pixels)”。这种视觉输入是更通用的表征,更符合人类在物理世界中导航时的视觉体验。而当我们试图将视觉信息转化为语言模型的 Token 表示时,我们实际上是在进行一次信息抽象,在这个过程中会丢失例如字体、换行符以及二维排列等物理信息。


以“拿起杯子”这个简单的动作为例,当我们试图用语言描述这个过程时,它显得很容易,但在真实的物理世界里,这个动作包含了极其复杂的空间计算:


1、视觉系统需要捕捉到杯子的存在,并理解它在环境中的上下文;


2、大脑需要指挥手部,看着自己的手,将手掌张开到与杯子几何形状精确匹配的程度;


3、在接触杯子的瞬间,我们需要触摸到正确的 Affordance(功能可供性)点,才能完成抓取。


这一切都完全依赖于对三维空间的实时感知。Justin 指出,我们可以尝试用语言去叙述这一切,但这本质上是一个带宽极低且“有损的通道(Lossy Channel)” 。身处世界并在其中行动(Being in the world and doing things),与尝试描述它,是两种完全不同的模态。单纯的语言叙述无法让人真正完成“拿起杯子”这个动作,因为语言无法承载身临其境的物理互动 。


Case:DNA 双螺旋发现中的空间思维


为了证明空间智能在人类科学突破中的核心地位,李飞飞提到了一个文明史上的高光时刻:DNA 双螺旋结构的发现。


当年,Francis Crick 和 James Watson 在推导 DNA 结构时,并没有完全依赖线性的语言逻辑或纯粹的数学公式。相反,这一过程很大程度上依赖于极高强度的 Spatial Reasoning(空间推理):他们需要在脑海中,以及通过物理模型,去构建分子在三维空间中的排列方式,理解化学键如何在立体结构中通过几何约束连接在一起。最终,那个著名的双螺旋结构就是他们通过对三维实体的空间想象与推演而“猜测(Conjecture)”出来的。


1953 年,Francis Crick 和 James Watson 依赖纸板、金属丝和模型零件,在实验室里不断“搭建—拆解—重组”可能的分子结构,并结合 X 射线衍射数据做空间匹配,最终确定了双螺旋模型。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


这种在三维空间中对没有见过的东西进行几何构建和逻辑验证的智力活动是很难被还原为纯粹的语言描述的。这证明了,空间智能不仅是生存的基础,更是人类进行最高级科学创造不可或缺的思维工具。


基于上述思考,World Labs 的成立愿景变得清晰而宏大。


World Labs 是一家由李飞飞等人于 2024 年创立的 AI 初创公司,专注于空间智能,即构建能够感知、生成并与三维世界交互的大型世界模型(Large World Models,LWM)。简单来说,World Labs 想让 AI 不仅能读文字、识图像,而是真正“理解”空间与物理世界,从而能生成 3D “世界”,支持设计、游戏、AR/VR、机器人等应用。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


在 AlexNet 时代之后,Justin Johnson 就有一种预感:AI 的下一个十年,将不再局限于数据中心里的服务器,而是要“Get AI out of the data center and into the world”(将 AI 带出数据中心,带入真实世界)。


World Labs 认为,当下正处于一个构建世界模型的关键节点。这种模型不仅要能像 LLM 预测下一个 Token 那样工作,更要能预测三维世界的物理演变;不仅要能生成文本,更要能生成并理解具有物理属性的 3D 世界。


AlexNet 时代指的是 2012 年 AlexNet 在 ImageNet 竞赛上以巨大优势获胜,由此引发的深度卷积神经网络(CNN)在计算机视觉领域的爆发式发展,标志着现代深度学习时代的正式开启。


这不仅仅是为游戏或电影生成漂亮的画面,而是要构建一个具有空间智能的通用基座。它将成为 AI 理解物理法则、进行具身操作、甚至辅助人类进行科学发现的新一代引擎。就像 LLM 开启了语言智能的革命,World Models 将开启空间智能的新纪元,补全 AGI 版图中缺失的那块最古老、也最复杂的拼图。


02.

Marbl 是什么?


Marbl 是 World Labs 推出的全球首个同时实现如此高保真度(Fidelity)、真正面向公众推出的 3D 世界生成模型(Generative Model of 3D Worlds)。Justin Johnson 表示,他们在设计 Marbl 时就考虑到了双重目标:


1、Marbl 必须是一个能够推动空间智能发展的世界模型,具备理解各种输入、模拟反事实(Counterfactual)情况以及随时间演变的能力;


2、作为一家商业公司,团队极力避免将这个产品做成一个纯粹的科学项目(Science Project),而是刻意将它设计为一个在今天就能为游戏、VFX(视觉特效)和电影制作等行业带来实际价值的产品。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


在团队看来,Marbl 的强大之处在于贯通了从感知到生成的完整链路,主要体现在以下两个核心方面:


 多模态输入(Multimodal Input)


Marbl 展现了极强的包容性。它不局限于单一的输入形式,用户可以输入一段文本描述,也可以上传单张图像,甚至是一组图像。这种灵活性使得它能够适应各种工作流。例如,用户可以拿出手机拍两张自己厨房的照片作为输入,Marbl 就能基于这些照片在虚拟空间中重构出这个厨房的 3D 模型。


• 交互式编辑 (Interactive Editing)


这是 Marbl 与当前市面上大多数生成式 AI 最大的区别。在传统的生成模式中,如果你对结果不满意,通常只能修改 prompt 来重新生成,而在 Marbl 中,用户可以像与设计师沟通一样,对生成的场景下达具体的修改指令。


比如,当用户让 Marbl 生成了一个房间后:


1、用户可以直接告诉模型“我不喜欢这个水瓶,把它改成蓝色的”;


2、如果用户觉得布局太拥挤,可以要求 Marbl“移走桌子”;


3、用户甚至可以调整场景布局,比如 “改变这些麦克风的位置”。


模型不仅能听懂这些指令,还能根据新的约束条件,重新生成并调整整个 3D 世界,来匹配用户的意图。这种“生成-反馈-修改”的闭环,才是真正的空间交互体验。


需要注意的是,3D 世界生成模型与目前大众熟悉的视频生成模型有着本质的区别。视频生成模型输出的是一连串 2D 的像素帧,虽然看起来像是动的,但模型内部并不一定构建了稳定的三维结构。这导致在使用过程中,用户往往感到一种深深的无力感。


比如在用视频生成模型时,用户被迫要学习一种“导演语言”,去描述自己想要的运镜,比如“推拉摇移 (Pan/Zoom)”。但即便如此,控制依然是模糊的,比如用户无法要求视频模型向北平移 63 度(Pan 63 degrees to the north),因为模型根本没有坐标系的概念,所以用户无法获得这么精确的控制。


而 Marbl 的输出不是一段视频,而是一个完整立体的 3D 场景,这意味着你看到的不是“电影”,而是被“生成”的片场。这样的 3D 世界不仅在视觉上有深度,还内含结构信息,为后续的精确控制和编辑提供了基础。因此,它允许用户在场景中任意放置摄像机,设定具体的 XYZ 坐标和朝向,甚至规划一条复杂的运镜轨迹来“录制”画面。


这背后的关键在于:只有具备真正的 3D 空间感,系统才能正确地理解相机的方向与移动方式。Marbl 的出现,让过去只有传统 CGI 软件才能做到的这种精确控制,首次在生成式 AI 中成为可能。


传统 CGI 软件指的是用于制作计算机生成影像(Computer-Generated Imagery)的专业 3D 内容创作工具,如 Maya、3ds Max、Blender 等,通常需要专业建模、绑定、材质、灯光与渲染流程来手工构建三维场景或动画。


03.

Marbl 的技术路线


World Labs 并没有选择走一条简单的路,比如直接复用现有的视频生成技术栈。相反,团队聚焦在 3D 表示和神经网络架构的底层,构建了一套希望能解决空间智能独特挑战的技术栈。这套技术栈的核心博弈在于,如何在生成的高保真度(Fidelity)、实时渲染的效率(Efficiency)以及物理世界的真实性(Physics)之间寻找完美的平衡点。


为什么选择用 Gaussian Splats?


当大众谈论生成式 AI 时,往往习惯了使用 LLM 的 Token(词元)或者视频模型的 Frame(帧)。但在 Marbl 的世界里,构成 3D 世界的基础原子单元是 Gaussian Splats(高斯溅射)。


Gaussian Splats(高斯溅射)是一种以大量 3D 高斯体(Gaussian ellipsoids)来表示和渲染场景的技术,它允许在不构建传统网格模型的情况下,以极高速度与质量重建与渲染真实场景,常用于即时 3D 重建与神经渲染。


通俗来讲,可以将每一个 Splat 想象成一个微小的、半透明的粒子。这些粒子不是像乐高积木那样是刚性的方块,而是像一团团模糊的云雾,它们在 3D 空间中拥有精确的位置、方向、颜色和透明度属性。成千上万、甚至数百万个这样的 Splats 叠加在一起,就“渲染”出了我们看到的精致 3D 场景。


那么,为什么 World Labs 选择 Splats 而不是传统的网格(Mesh)或体素(Voxel)?


这背后的原因在于对极致的渲染效率的追求。对于 Spatial Intelligence 而言,如果生成的 3D 世界只能在巨大的服务器集群上渲染,那它就失去了交互的意义。Marbl 的目标是让用户能够实时地在场景中移动、旋转视角。而 Gaussian Splats 的数学特性使得它非常适合现代 GPU 的光栅化管线,能够在 iPhone、VR 头显等算力受限的移动设备上实现 Real-time Rendering(实时渲染)。


这意味着,World Labs 实际上是在用一种“粒子云”的方式来表达世界,这既保留了 3D 结构的复杂性,又巧妙地绕过了传统 3D 建模高昂的计算成本,实现了在移动端 30fps 甚至 60fps 的流畅体验。


虽然 Marbl 目前使用的是 Splats,但也保持了架构上的开放性。Justin 提到,未来架构可能会演进,也许有一天,原子单元会变成代表 3D 世界某个区域的 Token ,或者像 World Labs 内部探索的 RTFM 模型那样,在交互过程中逐帧生成。但就当下的产品化而言,Splats 是实现“所见即所得”的最佳解。


RTFM 是 World Labs 最新推出的实时生成世界模型(Real-Time Frame Model)。RTFM 不需要传统 3D 模型,而是用一个神经网络(自回归扩散 Transformer)从一张或几张 2D 图像生成可自由探索的、具备几何一致性、带反射/阴影/光照等效果的三维世界画面,并且能在单块 NVIDIA H100 GPU 上实时渲染、持续记忆这个世界。


视觉真实 ≠ 物理真实


当前 World Models 面临的最大挑战在于:生成一个看起来像真实世界的 3D 场景是一回事,生成一个符合物理定律的世界却是另一回事。


目前的深度学习模型本质上主要还是在做模式匹配(Pattern Matching)。比如说,模型可能会生成一个非常漂亮的拱门,画面非常精美,但这并不意味着模型“理解”拱门的力学结构,它不知道是中间那块石头在承受重力。模型只是在数以亿计的数据中见过拱门的样子,并进行了模仿。


对于电影特效或游戏背景来说,这种 “看起来合理(Plausible)” 就足够了。但如果你是一位建筑师,想用这个模型设计一座现实中的大楼,那么仅仅“看起来像”是远远不够的,因为如果模型不懂重力,大楼造出来就会塌。


为了解决这一问题,World Labs 正在探索将传统的物理引擎与生成式模型结合的混合路径。一种方式是 “蒸馏”物理知识:利用成熟的经典物理引擎(Physics Engines)生成海量的模拟数据,然后用这些数据来训练模型。这就像是把牛顿力学通过数据的方式“蒸馏”进神经网络的权重里。


另一种更大胆的尝试是给 Splats 赋予物理属性。既然世界是由 Splats 组成的,那么可以在每个 Splat 上附加物理属性,比如质量、弹性等,甚至用“虚拟弹簧 (Virtual Springs)”将相邻的 Splats 连接起来。这样,当用户推倒一个物体时,就可以通过计算这些粒子的物理相互作用来模拟真实的倒塌或变形。


此外,还有一种更通用的方法是完全依赖生成式模拟:当用户进行操作时,模型不进行传统的物理计算,而是直接“重新生成”整个场景的状态。这虽然计算量巨大,但具备最强的通用性。


Transformer 是集合模型,而非序列模型


在模型架构层面,Justin Johnson 分享了一个极具洞察力的观点,这解释了为什么 Transformer 架构能够跨越语言,成为 3D 世界模型的核心支柱。


在大多数人的认知中,Transformer 等同于语言模型,专门处理文字之类的序列(Sequence)数据。但 Justin 纠正了这一误区:Transformer 本质上是集合(Set)模型,而非序列模型。他认为,Transformer 内部的注意力机制和各种算子(Operators)本质上是置换等变(Permutation Equivariant)的,也就是说,如果你把输入的 Token 顺序打乱,模型内部的处理逻辑并不会因此改变。唯一让 Transformer 变成“序列模型”的,是人为加入的 Positional Embedding(位置编码)。


这一数学本质使得 Transformer 天然适合处理 3D 空间数据。因为 3D 世界本质上就不是一个线性的序列,而是一个由物体、粒子或空间块组成的集合(Set)。当我们面对一个乱序的 3D 场景数据(比如一堆无序的 Gaussian Splats)时,Transformer 能够完美地处理它们之间的关系,而不需要强行转化为像语言那样的线性结构。


这为 World Labs 构建基于 Transformer 的 3D 世界模型提供了坚实的理论基础:我们不需要发明一种全新的架构,而是需要正确地理解并利用 Transformer 在处理集合数据上的强大能力。


04.

Marbl 的使用场景


对于 World Labs 而言,Marbl 不仅仅是一个展示“空间智能”概念的精美玩具,它被定义为一项能够赋能各行各业的 Horizontal Technology(横向技术)。虽然目前的切入点更多集中在创意领域,但从电影制作到每个人的日常生活,再到机器人产业的未来,Marbl 展现出的潜力证明了 3D 世界模型拥有远超单一垂直领域的广阔天地。


• 创意与影视


在影视制作、游戏开发和 VFX(视觉特效)领域,Marbl 正在解决一个核心痛点:如何在生成中获得精确的控制力。如前文所说,目前的视频生成模型缺乏真正的精度。Marbl 提供了精确的 Camera Placement(相机放置),对于虚拟制片中的背景生成等用例,只要生成的场景在视觉上看起来可信,它就能极大地降低特效制作的门槛和成本,成为电影工业中一个强大的生产力工具。


 室内设计


特别的是,最有意思的应用场景往往不是开发者预设的,而是用户在使用过程中自发挖掘出来的。室内设计就是 Marbl 一个典型的 Emergent Use Case(涌现出的用例) 。


Justin Johnson 分享了一个厨房改造的例子:用户只需要拿出手机,拍摄两张自家厨房的照片上传给 Marbl,模型就能在虚拟空间中重构出这个厨房的 3D 结构。接着,利用 Marbl 的 Interactive Editing(交互式编辑)功能,用户可以随意尝试各种设计方案:把台面换成大理石的;把地板换成木质的;换一套橱柜的颜色。这种体验不需要用户掌握复杂的 CAD 软件,也不需要昂贵的设计师渲染服务。


李飞飞表示,虽然团队并没有专门为此开发功能,但因为 Marbl 掌握了通用的空间智能,这种针对物理空间的设计能力就自然而然地衍生出来,甚至在 Beta 阶段,就已经有用户利用 API 密钥在构建专门面向室内设计的垂直应用了。


 机器人与具身智能


如果说创意和设计是 Marbl 的“现在”,那么 Robotics 是 World Labs 押注的“未来”。在 World Labs 的官网上,甚至专门开辟了一个页面来展示相关的用例。


从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?


李飞飞表示机器人领域面临的最大瓶颈是 Data Starvation(数据饥渴)。训练一个聪明的机器人需要海量的数据,但高质量的真实世界数据非常稀少,且获取成本非常高。虽然互联网上有无穷无尽的视频数据,但这些视频是被动的像素流,缺乏机器人训练所必须的 Controllability(可控性)和交互维度。机器人不能只通过看视频来学习,它需要知道如果手滑了盘子会怎么碎,如果用力过猛锅会怎么翻。


Marbl 在这其中扮演的角色是一个强大的 Simulator(模拟器)。它能够生成高保真的合成数据,填补了真实数据与互联网视频之间的巨大鸿沟。在 Marbl 生成的虚拟世界中,我们可以构建极其复杂的场景,并允许 Embodied Agent(具身智能体)在其中进行成千上万次的试错和交互。


比如,为了训练一个家务机器人,我们可以用 Marbl 生成各种布局的厨房,充满各种各样的障碍物和光照条件,让机器人在这个零成本的虚拟环境中学会如何避障、如何抓取物体。


这种生成 Synthetic Simulated Worlds(合成模拟世界)的能力,极大地降低了构建训练环境的成本和门槛。虽然 World Labs 首先在创意产业落地,但李飞飞和 Justin 都坚信,随着技术成熟,Marbl 这种通用的空间智能模型,将成为机器人和具身智能爆发前夜最重要的基础设施之一,而这个未来可能比大众预想的时间点更早。


05.

在算力被少数巨头垄断的时代,学术界还能做什么?


在 AI 发展的早期,学术界和工业界的界限并不像今天那么分明。但随着深度学习对算力需求的指数级爆发,一个无法回避的核心问题摆在了所有研究者面前:在算力被少数巨头垄断的时代,学术界还能做什么?


Justin Johnson 回顾深度学习的发展史,认为这在某种意义上就是一部不断扩大计算规模的历史。在 AlexNet 时代,行业刚刚经历了从 CPU 到 GPU 的跨越。从那时起到现在,单张显卡的性能已经提升了约 1000 倍。但真正的质变在于规模。


如今训练一个模型,不再局限于单张 GPU,而是通常调用成百上千、甚至数万张 GPU 进行分布式训练。这意味着,我们今天能够在一个模型上调用的总算力资源,大约是 AlexNet 时期的 100 万倍。这种巨大的差距改变了游戏规则:在 5-10 年前,你确实可以在实验室里用几张 GPU 训练出 SOTA 模型,但今天学术界已经无法再仅凭几张卡复现这种 SOTA 级别的训练了。


这并不是坏事,因为它证明了技术确实奏效了,但也意味着学术界的角色必须随之转变。


具体来说,工业界拥有海量的数据和算力,他们的任务是验证那些已经被证明有效的路径(如 Transformer),并通过大规模 Pre-training 将模型推向极致,最终实现产品化。


而学术界不应该试图去模仿工业界,去卷谁的模型参数更大,因为这不仅是徒劳的,也是对智力资源的浪费 。相反,学术界应该成为 “Wacky Ideas(疯狂/古怪想法)” 的孵化器。也就是说,学术界有着独特的自由度,应该专注于那些短期内看似不可行、但具备长远颠覆性的 Blue Sky Problems (蓝天研究)。比如,探索大模型背后的理论基础,或者进行跨学科的融合研究。学术界的价值在于试错,在于提出那些 99% 都会失败、但只要有一个成功就能改变世界的想法。


进一步,为了具体说明什么是学术界该做的“Wacky Idea”,Justin 抛出了一个极具前瞻性的技术议题:打破硬件彩票(Hardware Lottery)。


目前的 AI 架构(如 Transformer)和硬件(如 GPU)之间存在着一种“共生锁死”的关系。不管是卷积神经网络还是 Transformer,它们的核心计算原语都是 Matrix Multiplication(MatMul,矩阵乘法)。因为这是 GPU 最擅长做的。这是一种典型的 Hardware Lottery(硬件彩票)现象:我们选择了某种算法,是因为它恰好适合当前的硬件,而不是因为它本质上是最优的。


但这种路径依赖正在逼近物理极限。Justin 指出,从 Nvidia 的 Hopper 架构到 Blackwell 架构,虽然晶体管数量和总算力在增加,但 Performance per Watt(每瓦性能)的提升已经开始放缓。如果未来我们想要构建比现在大 100 倍或 1000 倍的模型,现有的基于 GPU 和 MatMul 的体系可能无法支撑这种扩展。


这时候,学术界的机会就来了:未来的计算单元不再是单个 GPU,而是整个 Cluster(集群)或 Node(节点)。如果不受限于 MatMul,是否存在其他的 Primitives(计算原语) 更适合这种大规模分布式的硬件环境?


也许在 10 年或 20 年后,我们会发现一种全新的神经网络架构,它不再依赖矩阵乘法,而是基于一种全新的数学运算,这种运算能更高效地在数万个节点之间进行通信和计算。这种对未来 20 年底层架构的想象和探索,是工业界无暇顾及的,但这正是学术界责无旁贷的使命。


Reference

After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs|https://www.youtube.com/watch?v=60iW8FZ7MJU


文章来自于“海外独角兽”,作者 “Haozhen、Gemini”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0