B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成
4883点击    2025-09-11 19:02

单台 8 卡 A800 仅需 8 秒即可生成 5 秒视频。


近日,B 站开源了其备受瞩目的动画视频生成模型 AniSora V3,该版本带来众多升级,如量化版本支持单卡 4090 推理,单台 4 卡 4090 生成 5 秒 360p 视频仅需 30 秒,单台 8 卡 A800 仅需 8 秒。


我们先来直观感受一下 AniSora V3 的视频生成效果。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成


最新的 V3 版本除了在动态性、画面美感、指令遵从等方面进行了增强外,还结合动画制作实际流程中的相关诉求,增加了多种模态的交互能力,更加贴合动画制作流程本身,为长视频创作提供了有力支撑。


AniSora 通过引入角色 360 度视图生成、任意帧引导、极低分辨率超分、风格转绘乃至音频驱动口型等多种交互能力, 使其更像是一个能听懂复杂需求的创意伙伴。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

角色单张正面立绘生成 360 度视频


风格转绘


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

输入视频——线稿提取——风格化


目前官网已更新至 AniSora V3.1,优化了训练策略,增强了运动范围能力,并将运动分数设置为 2.0-4.0。


  • GitHub:https://github.com/bilibili/Index-anisora


而这一切的背后得益于导演驱动的多智能体长篇动画生成框架 AniME,它就像一个“AI 导播”,能调度剧本、角色、场景、动画、音效等多个“AI 专家智能体”协同工作,从而实现从单个镜头到连贯长视频的创作飞跃。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

图 1 AniME 架构图


当拿到一个故事后,AniME 不会盲目地生成视频,而是像一位真正的导演那样,首先将故事解构成场景和镜头,规划好整体的视觉风格,再将具体任务分派给它的“专家团队”:


  • 剧本与分镜智能体负责规划镜头语言;


  • 角色与场景智能体负责设计视觉元素;


  • 动画师智能体赋予画面以生命力;


  • 甚至还有音频、剪辑乃至质量评估智能体负责后期制作和品控。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

图 2 AniME 多智能体协作算法流程图


其内置的模型选择(MCP)机制还赋予了每个专家智能体一种“自主判断力”——它能根据当前任务的具体需求,从自己的专属工具箱中,智能地选择最合适的模型。比如,一个以对话为主的场景,它会优先选择能确保角色一致性的模型;而一个激烈的打斗场面,它则会调用更擅长动态生成的模型。


目前 AniME 的多智能体协作已用于 B 站的端到端动漫内容生成。例如对于小说片段:“一位算命先生曾说我生日那天会走大运,一飞冲天。可没想到,那天我居然被车撞了……然后直接被吸进了一个超级吞噬系统。在这个系统里,我叫玄夜,是个气海被毁的倒霉蛋,而且马上就要被天元宗圣女休夫了。” AniME 各模块的工作流程及输出如图 3 所示。通过各智能体协作,该片段可以自动化转换为长动画视频片段。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成

图 3 Story 驱动的 AniME 全流程视频生成效果演示


在今年 10 月举行的 2025 全球机器学习技术大会上,哔哩哔哩智能创作技术负责人、算法专家蒋宇东将亲临大会现场,带来《AI 动画模型技术实践、应用以及未来展望》的主题分享,探讨 AI 如何重塑动画生产力,助力动画内容规模化、高质量产出。


B站正式开源AniSora V3:从单卡4090推理到导演驱动的多智能体动画生成


蒋宇东,现任哔哩哔哩智能创作技术负责人、算法专家。复旦大学计算机硕士,人工智能领域十余年资深专家。深耕机器学习与计算机视觉,曾就在阿里新华智云、腾讯 OVBU、字节 AILab 等头部企业算法核心团队担任技术负责人。


他将深入解析 Sora 时代动画视频生成技术的关键挑战,并结合 AniSora 的研发经验,介绍如何通过高质量数据处理管线、可控生成模型,以及针对动画特性定制的评测基准,来推动动画生产力的跃迁。


同时,他还将结合 AniSora 在长视频创作中的应用实践,剖析角色一致性、场景连贯性、物理效果生成等技术难点的解决思路。


2025 全球机器学习技术大会(ML-Summit)北京站将于 2025 年 10 月 16-17 日在北京威斯汀酒店举办。汇聚来自高校科研工作者、顶会论文作者与一线科技产业技术实践派的 50+ 位重量级嘉宾。他们将以实战经验与前沿洞察,带来关于智能体工程与实践、AI 编程、多模态大模型、具身智能、开源模型与框架等领域的深度解读与破局思路。详情参考官网:https://ml-summit.org (或点击原文链接)。


文章来自于“CSDN”,作者“梦依丹”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md