基于大模型原生流式音频交互的3D数字人系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大模型原生流式音频交互的3D数字人系统
申请号:CN202510079485
申请日期:2025-01-18
公开号:CN119943044A
公开日期:2025-05-06
类型:发明专利
摘要
本申请涉及数字人技术领域,其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统,其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容,使用了先进的特征提取框架来进行语音特征提取和语义分析,从而有助于更为及时准确地理解用户的语音交互内容语义,基于端到端语音大模型直接生成精准的语音回复,并基于该语音回复来实现对3D数字人的流式驱动。这样,不仅提升了交互的真实感和沉浸感,而且增强了3D数字人系统的智能化水平,为各种应用场景下的高效沟通开辟了新的可能性。
技术关键词
交互内容 音频交互系统 编码向量 序列 音频解码器 语义向量 音频适配器 音频输入接口 信号生成单元 编码特征 词特征 大语言模型 Sigmoid函数 信号编码 语音特征提取 上采样 生成驱动信号