基于多模态融合和情感分析的语音识别转写方法及系统

申请号：CN202511004798

申请日期：2025-07-21

公开号：CN120808788A

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及基于多模态融合和情感分析的语音识别转写方法及系统，涉及语音识别领域，通过先获取目标语音信号及同步的视觉信息和文本上下文信息的辅助模态信息，对语音信号分割识别得到语音特征向量，对文本上下文信息提取得到文本辅助特征向量，再将二者多模态融合生成融合特征表示以进行语音转写得到初始转写文本，接着依据视觉信息和初始转写文本进行情感分析生成情感特征标签，最后基于该标签对初始转写文本优化校正得到目标转写文本，解决了语音识别转写难以适应方言多样性、忽视情感信息导致识别准确率和鲁棒性不足的技术问题，通过多模态信息的融合及情感分析，能更精准地识别语音内容并优化转写文本，提高了语音识别转写的准确性和质量。

技术关键词

方言词汇融合特征情感特征转写方法预训练语言模型多模态编码面部表情特征标签校正视觉语义特征动作特征语音特征文本情感分析信号自然语言理解

系统为您推荐了相关专利信息

一种基于多视图特征平衡学习的硬盘故障预测方法

硬盘故障预测方法样本偏移特征神经网络单元融合特征

一种海水养殖尾水智能处理方法

颗粒沉降速率微藻生长速率养殖尾水稳态营养盐

基于mamba特征提取的无人机目标跟踪方法及系统

跟踪方法全局特征提取无人机图像多层注意力

面向手术室语音交互的多模态特征融合的噪声抑制方法

语音噪声噪声样本噪声抑制方法融合特征音频特征

一种基于混合注意力与多尺度特征的绝缘子缺陷检测方法

融合特征残差神经网络局部空间特征多尺度特征提取语义特征