大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

9788点击 2026-05-18 17:53

时隔近一年，那个在 B 站教大家阅读 AI 论文的大神李沐 @跟李沐学 AI，终于回归了！

在最新一期视频中，李沐「做了个实时数字人」，并与 TA 进行视频对话，从视频来看，数字人形象确实挺逼真的，用他自己的话说，「水平吊打我自己」！

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

而这背后的技术正是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模型：面向语音智能体的实时数字人。

官方介绍，作为一个实时基础模型，Higgs Avatar v1 能够为客服对话、虚拟助手、培训以及互动体验带来更接近真人的数字化形象与临场感。

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

而且操作起来非常简单，只需要一张静态图片，就能生成生动、富有表现力的面部表情，并支持说话、倾听和回应。所有操作都以逐帧方式完成，并与音频保持同步。

BosonAI 团队介绍，上述李沐的展示的视频内容完全由 AI 生成，不仅没有预设脚本，也没有动画制作流程、预渲染循环，每一帧都是实时渲染完成的 —— 包括声音、对话、口型同步、头部动作和表情。

并且，整套流程仅在单张 H100 上就可以运行。

下面再来看几个官方给的使用案例，大家来评一评效果如何？

实时保险 Agent 展示：

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

AI 教练鼓励用户的 Demo 展示：

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

AI 艾伦・图灵访谈：

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

两个 AI 虚拟形象在探讨人类情感：

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

只要一张照片，上演「大变活人」

根据 Boson AI 团队披露的技术细节，Higgs Avatar v1 具备以下四大核心优势：

无脚本的即兴表演：模型会跟着语音流，逐帧实时渲染出唇形同步、头部动作和面部表情。你听到什么，就看到什么，完全是即兴发挥。

开局一张图，剩下全靠 AI：不需要好莱坞级别的 3D 动捕，也不用预先录制僵硬的循环视频。只要给它一张静态照片，Higgs Avatar v1 就能瞬间生成一个会听、会说、会给反应的动态面孔。

快到没有「时差」：业界公认保持实时对话不卡顿的延迟底线是 62.5 毫秒，而 Higgs Avatar v1 生成一帧画面只需要 16 毫秒！这意味着数字人的表情永远紧紧贴合声音，绝不拖泥带水。

极致的算力性价比：对于企业级应用而言，成本是落地的关键。单张 H100 GPU 即可同时支持 8 路实时对话并发，将单次对话的成本压缩到了完全能够满足大规模生产部署的水平。

大神李沐回归B站「做了个实时数字人」，直言「水平吊打我自己」

Higgs Avatar v1 的发布，为 Boson AI 的产品栈补齐了一块关键的视觉拼图。

在实际业务场景（如保险销售、企业教练、虚拟面试及互动娱乐等）中，Boson AI 现已形成了双擎驱动的格局：Higgs Audio 负责语音的理解与生成，Higgs Avatar 负责赋予 AI 真实的「面容」。

「我们之所以坚持自研基础模型，是因为生产环境中的对话式 AI 无法由外部组件拼凑而成。」 Boson AI 团队在发布声明中强调。

如果只是把现成的外部 API 缝合在一起，延迟卡顿、抢话冲突、声音跟表情脱节等问题根本没法解决。只有从头开始全栈自研，把声学与面部表情的情感对齐、端到端的工作流编排死死咬合在一起，才能彻底打破交互的隔阂。

怎么玩？

目前，Higgs Avatar v1 已经进入内测（Private Preview）阶段，接下来会搭载在他们即将推出的语音聊天体验产品 Boson Presence 中和大家见面。

迫不及待想看看沐神新作品的同学们，可以去官网排个 Waitlist 占坑了。对于有企业集成、定制模型或 API 访问需求的客户，也可直接通过官方邮箱联系。

B 站视频：https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click

更多见： https://www.boson.ai/blog/higgs-avatar-v1

加入试用：https://tally.so/r/VLvKgE

文章来自于"机器之心"，作者 "机器之心编辑部"。

关键词: AI新闻 , 实时数字人 , BosonAI , 李沐 , 数字人 , Higgs Avatar v1

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales