基于大模型原生流式音频交互的3D数字人系统

申请号：CN202510079485

申请日期：2025-01-18

公开号：CN119943044A

公开日期：2025-05-06

类型：发明专利

摘要

本申请涉及数字人技术领域，其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统，其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容，使用了先进的特征提取框架来进行语音特征提取和语义分析，从而有助于更为及时准确地理解用户的语音交互内容语义，基于端到端语音大模型直接生成精准的语音回复，并基于该语音回复来实现对3D数字人的流式驱动。这样，不仅提升了交互的真实感和沉浸感，而且增强了3D数字人系统的智能化水平，为各种应用场景下的高效沟通开辟了新的可能性。

技术关键词

交互内容音频交互系统编码向量序列音频解码器语义向量音频适配器音频输入接口信号生成单元编码特征词特征大语言模型 Sigmoid函数信号编码语音特征提取上采样生成驱动信号