2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。

从公开信息来看,LiveAvatar 并非面向短视频或单次生成场景的展示型模型,而是直接锚定直播、在线交互、长时间虚拟主持等连续运行场景,其技术路线和系统架构均围绕“工业级可用性”展开。
与传统以“离线渲染”为主的虚拟人方案不同,LiveAvatar 的核心目标是构建一个可持续运行的实时虚拟人系统。项目从一开始就围绕三个关键指标进行设计:

在此基础上,团队选择以 140 亿参数扩散模型 作为视觉质量的主干框架,通过系统级并行优化,使其具备实时运行的可能性。
长期以来,虚拟人领域普遍存在一个矛盾:
LiveAvatar 采用的解决路径是“算法蒸馏 + 系统并行”协同设计:
先通过蒸馏技术,将原本需要大量采样步骤的扩散推理流程压缩至 4 步采样即可完成稳定生成,在模型层面显著降低计算负担;
同时在系统层面引入 时间步流水线并行与分布式推理框架,使多个生成阶段在不同 GPU 之间并发执行。
根据公开测试数据,在 5 张 H800 GPU 的配置下,LiveAvatar 可稳定达到 约 20 FPS 的端到端生成速度,已满足实时视频播放的基础要求。

与以往“音频输入完成后再统一生成视频”的方式不同,LiveAvatar 采用流式生成机制:
这种模式下,虚拟人不再是“回放式响应”,而是具备类似真人的即时反馈能力,使其可直接用于:
虚拟人开始具备“可对话”的基础条件。
除实时交互外,LiveAvatar 的另一项关键突破在于对长时视频生成稳定性的系统性解决。
项目采用 块级自回归(Block-wise Autoregressive)机制,将视频拆分为多个连续片段逐步生成,再通过时序一致性约束进行拼接。该方式避免了传统长序列建模中显存与上下文窗口不断膨胀的问题。
在公开测试中,系统已实现 10,000 秒以上(约 3 小时)的连续稳定生成,期间身份一致性、画面质量与口型同步指标均保持平稳。这意味着虚拟人首次具备支撑“多小时连续直播”的技术基础。
从已披露的模型能力来看,LiveAvatar 并不局限于单一风格人像:

这种泛化能力主要来自于多模态大规模训练数据与细粒度动作建模的结合,使模型不再只是“驱动一张脸”,而是具备完整的表情—口型—动作协同能力。
从项目公开的运行要求可以看出,LiveAvatar 当前仍定位于算力密集型系统:
同时项目提供基于 Gradio 的可视化交互界面,支持通过“参考图像 + 音频驱动 + 文本提示”快速生成虚拟人视频,便于开发者进行验证和二次开发。
从技术成熟度和工程形态来看,LiveAvatar 的开源并不仅是一次模型发布,更体现出虚拟人技术从“内容生产工具”向“实时数字基础设施”的转变趋势:
其“实时 + 长时稳定 + 高画质”三要素的同时成立,使虚拟人开始具备替代部分真人出镜场景的可行性。
根据项目路线图,LiveAvatar 后续还将逐步支持:
这意味着该项目未来将从“超算级实验系统”,逐步过渡到“实际可规模化落地的虚拟人平台”。
从当前披露的信息来看,LiveAvatar 的技术价值不在于某一个单点指标的领先,而在于首次在同一系统中,将实时性、长时稳定性与高画质三者同时整合,并以开源形式对外开放。这也标志着虚拟人技术,正在从“单点能力突破”走向“可长期运行的工程级系统阶段”。
项目主页:https://liveavatar.github.io
GitHub:https://github.com/Alibaba-Quark/LiveAvatar
文章来自于“赛凡智云”,作者 “赛凡智云”。
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales