大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」
8732点击    2026-05-18 17:53

时隔近一年,那个在 B 站教大家阅读 AI 论文的大神李沐 @跟李沐学 AI,终于回归了!


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


在最新一期视频中,李沐「做了个实时数字人」,并与 TA 进行视频对话,从视频来看,数字人形象确实挺逼真的,用他自己的话说,「水平吊打我自己」!


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


而这背后的技术正是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模型:面向语音智能体的实时数字人。


官方介绍,作为一个实时基础模型,Higgs Avatar v1 能够为客服对话、虚拟助手、培训以及互动体验带来更接近真人的数字化形象与临场感。


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


而且操作起来非常简单,只需要一张静态图片,就能生成生动、富有表现力的面部表情,并支持说话、倾听和回应。所有操作都以逐帧方式完成,并与音频保持同步。


BosonAI 团队介绍,上述李沐的展示的视频内容完全由 AI 生成,不仅没有预设脚本,也没有动画制作流程、预渲染循环,每一帧都是实时渲染完成的 —— 包括声音、对话、口型同步、头部动作和表情。


并且,整套流程仅在单张 H100 上就可以运行。


下面再来看几个官方给的使用案例,大家来评一评效果如何?


实时保险 Agent 展示:


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


AI 教练鼓励用户的 Demo 展示:


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


AI 艾伦・图灵访谈:


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


两个 AI 虚拟形象在探讨人类情感:


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


只要一张照片,上演「大变活人」


根据 Boson AI 团队披露的技术细节,Higgs Avatar v1 具备以下四大核心优势:


无脚本的即兴表演: 模型会跟着语音流,逐帧实时渲染出唇形同步、头部动作和面部表情。你听到什么,就看到什么,完全是即兴发挥。


开局一张图,剩下全靠 AI: 不需要好莱坞级别的 3D 动捕,也不用预先录制僵硬的循环视频。只要给它一张静态照片,Higgs Avatar v1 就能瞬间生成一个会听、会说、会给反应的动态面孔。


快到没有「时差」: 业界公认保持实时对话不卡顿的延迟底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要 16 毫秒!这意味着数字人的表情永远紧紧贴合声音,绝不拖泥带水。


极致的算力性价比: 对于企业级应用而言,成本是落地的关键。单张 H100 GPU 即可同时支持 8 路实时对话并发,将单次对话的成本压缩到了完全能够满足大规模生产部署的水平。


大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」


Higgs Avatar v1 的发布,为 Boson AI 的产品栈补齐了一块关键的视觉拼图。


在实际业务场景(如保险销售、企业教练、虚拟面试及互动娱乐等)中,Boson AI 现已形成了双擎驱动的格局:Higgs Audio 负责语音的理解与生成,Higgs Avatar 负责赋予 AI 真实的「面容」。


「我们之所以坚持自研基础模型,是因为生产环境中的对话式 AI 无法由外部组件拼凑而成。」 Boson AI 团队在发布声明中强调。


如果只是把现成的外部 API 缝合在一起,延迟卡顿、抢话冲突、声音跟表情脱节等问题根本没法解决。只有从头开始全栈自研,把声学与面部表情的情感对齐、端到端的工作流编排死死咬合在一起,才能彻底打破交互的隔阂。


怎么玩?


目前,Higgs Avatar v1 已经进入内测(Private Preview)阶段,接下来会搭载在他们即将推出的语音聊天体验产品 Boson Presence 中和大家见面。


迫不及待想看看沐神新作品的同学们,可以去官网排个 Waitlist 占坑了。对于有企业集成、定制模型或 API 访问需求的客户,也可直接通过官方邮箱联系。


B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click

更多见: https://www.boson.ai/blog/higgs-avatar-v1 

加入试用:https://tally.so/r/VLvKgE


文章来自于"机器之心",作者 "机器之心编辑部"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales