阿里首个世界模型:快乐…生蚝

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
阿里首个世界模型:快乐…生蚝
7621点击    2026-04-17 15:24

什么情况?!世界模型成果这几天扎堆上线了。


就在刚刚,成立恰满一个月的阿里ATH(Alibaba Token Hub)事业群,发布全球首个主动式实时互的世界模型产品


名也挺有趣的,叫HappyOyster(快乐生蚝)


阿里首个世界模型:快乐…生蚝


据官方介绍,HappyOyster搭载原生多模态架构,背后是支持多模态输入与音视频联合生成的流式生成世界模型,核心主打漫游(Wander)导演(Direct)创造(Create)分享(Share)


怎么个漫游法,请看VCR:


视频详情


输入生成滑雪场景的Prompt,HappyOyster立马给你造一个可交互小世界。你用WASD和上下左右方向键,就能实时控制角色位移、调整镜头视角,沉浸式穿梭在雪场里。


那“导演”又是什么玩法?


导演即实时AI视频导演引擎。传统AI视频是“输入prompt→等渲染→拿到一个固定成片”。HappyOyster让用户可以在视频生成的任意节点,用文字指令实时控镜头、调角色、改剧情走向


画面即时响应,实现“边拍边改”:


阿里首个世界模型:快乐…生蚝


至于“创造”,指的是把生成体验从“生成一段视频”,进化到“创造一个世界”。你不再是旁观者,而是能深度参与、全程掌控的创造者。


最后,你亲手创建的世界还能分享,让别人进来探索、二次创作。


不过,有一个坏消息:HappyOyster现在还需要申请邀请码才能体验。


但好消息是,量子位已经抢先解锁,这就带大家先来尝个鲜。


玩起来,玩起来


一张图总结Wandering漫游、Directing导演这两个核心玩法:


阿里首个世界模型:快乐…生蚝


先具体来看Wandering漫游模式,支持文本、图片输入


你可以直接输一句Prompt造世界,也能精细化控制,分别设定“角色(Character)”和“场景(Scene)”,还能自由切换第一人称或第三人称


阿里首个世界模型:快乐…生蚝


我们先浅试了一个海边小镇,一起来看效果:


阿里首个世界模型:快乐…生蚝


让人眼前一亮的是,HappyOyster生成的世界自带BGM;而且不只是能生成场景——小镇里竟然还有NPC在走动,代入感拉满。


P.S. HappyOyster可在你探索世界的时候自动帮你录制视频,在个人主页的My videos可查看。录制好的视频支持下载。


阿里首个世界模型:快乐…生蚝


目前,Wandering模式分辨率480p,而且探索时长目前有1分钟限制(时间到了需要重新进入)


我们还试了一下像素风格:


阿里首个世界模型:快乐…生蚝


HappyOyster也能轻松驾驭,让你直接化身像素小人。


不得不提一嘴,HappyOyster生成速度是真的快,be like:


阿里首个世界模型:快乐…生蚝


此外,Gallery(画廊)中还有别人分享出来的很多世界,也都可以点开探索:


阿里首个世界模型:快乐…生蚝


比如梵高的油画世界,超梦幻:


阿里首个世界模型:快乐…生蚝


下面再来看一下Directing导演玩法。


Directing同样支持文本、图片多模态输入。


用户可调整分辨率(720p、480p),设定视频画面的叙事风格与情感基调(Regular、Peaceful、Dramatic),控制视频的运镜方式与画面稳定度(Steady、Fast)


阿里首个世界模型:快乐…生蚝


一句话总结玩法,你可在任意节点用prompt改变你眼前的内容,改变剧情走向。


举个例子,男孩正在熟睡,在输入框中输入“一只猫跳到了床上,男孩被吵醒”:


阿里首个世界模型:快乐…生蚝


下一幕直接呈现你所描述的画面:


阿里首个世界模型:快乐…生蚝


咱又找着别人造的奇幻世界了,一起来探索一下吧:


阿里首个世界模型:快乐…生蚝


这里还有来自官方的更多展示:


阿里首个世界模型:快乐…生蚝


当然,HappyOyster应用并不止屏幕里的沉浸式生成和交互。


在阿里ATH团队看来,HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应,天生就适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中


比如在文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等方向,模型都可以作为一个实时演化的世界引擎,与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接,根据人的位置、动作、语言和环境变化,动态生成对应的视觉内容、事件反馈或交互结果。


要是再和硬件系统结合,HappyOyster承载的就不只是“内容生成”,而是一个能被现实输入持续驱动的生成式环境系统。只能说,未来的应用场景打开了。


原生多模态架构与流式生成世界模型


新产品发布的同时,阿里ATH事业群也向我们揭秘了其背后核心技术。


阿里ATH事业群,是阿里今年3月16日正式成立的创新事业群。团队打出的核心目标是“创造Token、输送Token、应用Token”。


ATH旗下涵盖通义实验室、MaaS业务线、千问事业部、悟空事业部及AI创新事业部,从基础模型研发、模型服务平台,到个人与企业端AI应用,布局得明明白白。


团队表示,HappyOyster的核心能力,源于其背后的原生多模态架构与流式生成世界模型,重点突破了三大核心技术难点,才实现了“实时交互、长时连贯、音画同步”的体验。


第一,长时世界建模,解决“生成久了就错乱”的问题。


HappyOyster采用长时间跨度的世界演化建模方式,靠海量长视频训练数据,深度学习真实世界的运行规律,捕捉世界持续运行中的状态转移逻辑,能稳定输出高保真、高一致性的动态场景。


针对长时间生成容易出现的内容漂移、结构退化问题,团队还加入了持续状态复用机制,强化时序连贯性。


流式生成时,模型不用每一步都重建完整上下文,而是通过历史注意力状态的连续传递,高效继承已生成信息、渐进更新,使生成始终沿既有时序语境扩展。


这种方式使其减少了上下文重建带来的不稳定性,在更长时间尺度上可维持稳定的场景结构与动态连贯性。


阿里首个世界模型:快乐…生蚝


第二,实时交互控制响应


HappyOyster在建模初期就设计了多样的控制信号(文本、Action、图像等),让世界生成和实时交互深度绑定。外部指令不再只作用于初始条件,而是持续影响后续的世界演化。


由此,模型能够在统一的时序框架下同时实现生成质量、长时一致性与实时可控性的协同优化。


团队表示,这一能力让模型从“被动生成内容”,升级到“主动模拟世界、让用户参与演化”,也为构建可交互的通用世界模拟器,提供了关键技术路径。


阿里首个世界模型:快乐…生蚝


为了解决实时性训练难题,HappyOyster用流式生成框架实现实时世界演化:


模型通过对世界状态进行高度压缩的隐式建模,将高维视频与多模态信息映射为紧凑的动态latent state,大幅降低单步生成的计算开销,让推理能低延迟持续推进;


同时,文本、图像与wandering指令等控制信号被设计为可在线注入的条件变量,确保模型在无需重置生成过程的情况下即可实时响应外部交互。


第三,音视频联合生成,让世界更有“沉浸感”。


针对音画协同这一训练难点,团队并未采用将音视频分阶段建模的思路,而是采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号。


在该机制下,音频作为世界动态的一部分参与联合生成,自然建立跨模态时间对齐关系;同时,通过共享条件约束与协同解码机制,保障音画同步与语义一致。


这些技术突破,让HappyOyster真正区别于传统文生视频模型。


正如团队所强调的,过去几年生成式AI完成了“文本→图像→视频”的跃迁,但始终停留在“生成像素”的阶段,用户只能观看,无法真正参与其中,这便是横亘在用户与数字世界之间的“第四面墙”。


而HappyOyster的核心目标,就是打破这道墙:


真正的下一代生成式AI,不再仅仅是把画面生成得更清晰,在那之上会进化到可以生成一个完整的、可进入的世界。这个世界有空间、有物理、有因果、有角色、有故事。你可以推门而入,可以亲手改写,可以离开又回来,也可以带朋友进去。


One More Thing


为啥取快乐生蚝这么个名?这背后还有小巧思呢。


官方解释:


四百年前,莎士比亚在The Merry Wives of Windsor里写下一句传世之言:


The world is your oyster.Open it.(世界是你的生蚝,等你亲手打开).”


四百年后,Happy Oyster让这句话第一次成为字面意义上的现实:说一句话,就能拥有一个完整的、可漫游、可导演、可分享的数字世界。


阿里首个世界模型:快乐…生蚝


官网链接:

https://www.happyoyster.cn/

OverView:https://www.happyoyster.cn/docs


文章来自于微信公众号 "量子位",作者 "量子位"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales