AI资讯新闻榜单内容搜索-MMLab

超越Figure AI！全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住

一觉睡醒，具身智能公司竟然也开始搞房地产了？！刚刚，大晓机器人联合港中文MMLab发布了一个新项目——Kairos-Homeworld，全球首个实现全屋三维生成与物体级全交互的统一框架。

来自主题: AI技术研报

8053 点击 2026-06-06 09:47

Siggraph 26 | 视频版Vision-Banana来了？大一统框架UniVidX刷新多项视频任务SOTA

近日，由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

来自主题: AI技术研报

10116 点击 2026-05-12 08:53

头号玩家照进现实！NTU发布世界模型交互新范式，攻克主动操作难题

南洋理工大学MMLab团队推出Hand2World，让AI世界模型真正「伸手」互动。只需在空中比划手势，模型就能生成逼真第一人称交互视频，实时响应调整。它摒弃旧有遮挡误导，用3D手部结构与射线编码解耦手与头运动，首次实现闭环持续交互。

来自主题: AI技术研报

6136 点击 2026-04-14 15:43

想入局VLA却不知从何下手？NTU&中大开源「终极菜谱」：从基座到频域建模，每一步都有实验支撑

MMLab@NTU联合中山大学的最新研究，给出了一份从入门到精通的终极“菜谱”——VLANeXt。这项研究没有简单提出一个新模型了事，而是系统性地从12个关键维度，深度剖析了VLA的设计空间。从基础组件到感知要素，再到动作建模的额外视角，每一步都有扎实的实验支撑。

来自主题: AI技术研报

8922 点击 2026-03-03 10:44

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University（MMLab）与 SenseTime Research，提出 Prism Hypothesis（棱镜假说）与 Unified Autoencoding（UAE），尝试用 “频率谱” 的统一视角，把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报

10920 点击 2026-01-15 09:20