摘要
本发明公开了基于本地化多任务工作流的实时语音交互数字人智能体,包括本地工作系统、线上大模型、本地语音识别系统、多任务机制系统和本地语音播放器;所述本地工作系统包括短期记忆层、意图识别路由、RAG本地知识库、危机识别、情绪图谱和心理报告生成;所述多任务机制系统包括数字人前端通信任务线程、大模型问答任务线程、字幕任务、指令任务和TTS处理任务。本发明通过线上大模型与本地化处理结合的混合架构,有效兼顾实时语音交互性能与心理健康服务效果,打破单一架构的局限。线上语音合成技术保障发音准确、情感自然且响应迅速,本地双通道语音识别配合优化机制,显著提升识别精准度,同时支持语音检测与热词打断,优化交互灵活性。