基于大模型原生流式音频交互的3D数字人系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于大模型原生流式音频交互的3D数字人系统
申请号:
CN202510079485
申请日期:
2025-01-18
公开号:
CN119943044A
公开日期:
2025-05-06
类型:
发明专利
摘要
本申请涉及数字人技术领域,其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统,其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容,使用了先进的特征提取框架来进行语音特征提取和语义分析,从而有助于更为及时准确地理解用户的语音交互内容语义,基于端到端语音大模型直接生成精准的语音回复,并基于该语音回复来实现对3D数字人的流式驱动。这样,不仅提升了交互的真实感和沉浸感,而且增强了3D数字人系统的智能化水平,为各种应用场景下的高效沟通开辟了新的可能性。
技术关键词
交互内容
音频交互系统
编码向量
序列
音频解码器
语义向量
音频适配器
音频输入接口
信号生成单元
编码特征
词特征
大语言模型
Sigmoid函数
信号编码
语音特征提取
上采样
生成驱动信号