摘要
本发明涉及基于多模态融合和情感分析的语音识别转写方法及系统,涉及语音识别领域,通过先获取目标语音信号及同步的视觉信息和文本上下文信息的辅助模态信息,对语音信号分割识别得到语音特征向量,对文本上下文信息提取得到文本辅助特征向量,再将二者多模态融合生成融合特征表示以进行语音转写得到初始转写文本,接着依据视觉信息和初始转写文本进行情感分析生成情感特征标签,最后基于该标签对初始转写文本优化校正得到目标转写文本,解决了语音识别转写难以适应方言多样性、忽视情感信息导致识别准确率和鲁棒性不足的技术问题,通过多模态信息的融合及情感分析,能更精准地识别语音内容并优化转写文本,提高了语音识别转写的准确性和质量。