基于本地化多任务工作流的实时语音交互数字人智能体

申请号：CN202511200891

申请日期：2025-08-26

公开号：CN120998237A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了基于本地化多任务工作流的实时语音交互数字人智能体，包括本地工作系统、线上大模型、本地语音识别系统、多任务机制系统和本地语音播放器；所述本地工作系统包括短期记忆层、意图识别路由、RAG本地知识库、危机识别、情绪图谱和心理报告生成；所述多任务机制系统包括数字人前端通信任务线程、大模型问答任务线程、字幕任务、指令任务和TTS处理任务。本发明通过线上大模型与本地化处理结合的混合架构，有效兼顾实时语音交互性能与心理健康服务效果，打破单一架构的局限。线上语音合成技术保障发音准确、情感自然且响应迅速，本地双通道语音识别配合优化机制，显著提升识别精准度，同时支持语音检测与热词打断，优化交互灵活性。

技术关键词

多任务机制实时语音语音识别系统工作系统语音播放器心理健康服务意图识别字幕图谱交互性记忆报告发音指令文本