一种基于大语言模型的构音障碍语音实时转换系统

申请号：CN202510618277

申请日期：2025-05-14

公开号：CN120823838A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开一种基于大语言模型的构音障碍语音实时转换系统，包括：基于ASR的语音识别模块，采用Whisper ASR模型将构音障碍患者的输入语音转换为初始文本；基于LLM的语义修正模块，集成Qwen2.5‑7B‑Instruct大语言模型，通过双阶段提示工程技术对初始文本进行语义纠错和情感增强；基于TTS的语音合成模块，采用CosyVoice TTS模型将修正后的文本转换为自然语音输出；实时性优化模块，通过动态语音缓冲机制、边缘‑云协同架构及模型量化技术，控制端到端延迟满足实时因子；个性化联邦学习模块，采用LightFed‑Cluster框架结合差分隐私保护，对ASR和LLM模型进行用户自适应微调；本发明实现了语义准确度、语音清晰度、语音自然度、转换时延的大幅改进，更适合构音障碍患者进行辅助与替代性沟通。

技术关键词

大语言模型差分隐私保护语音识别模块自然语音短时傅里叶变换文本语义频谱特征提取会议场景微调方法生成语音声纹特征投影技术语音特征模型更新阶段动态频率响应

系统为您推荐了相关专利信息

动态AI知识图谱系统

知识图谱系统封装模块大语言模型实体知识图谱技术

一种基于大语言模型的数据采集方法、设备及介质

关键词数据采集方法大语言模型网址分布直方图

一种基于数据对齐的大语言模型回复生成方法及系统

回复生成方法大语言模型数据对齐模块样本生成系统

直播弹幕实时互动方法、装置、电子设备及存储介质

直播弹幕白名单互动方法大语言模型关键词

金融领域知识问答方法、装置、计算机设备、可读存储介质和程序产品

大语言模型答案文本金融知识问答方法