基于多模态融合和情感分析的语音识别转写方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态融合和情感分析的语音识别转写方法及系统
申请号:CN202511004798
申请日期:2025-07-21
公开号:CN120808788A
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及基于多模态融合和情感分析的语音识别转写方法及系统,涉及语音识别领域,通过先获取目标语音信号及同步的视觉信息和文本上下文信息的辅助模态信息,对语音信号分割识别得到语音特征向量,对文本上下文信息提取得到文本辅助特征向量,再将二者多模态融合生成融合特征表示以进行语音转写得到初始转写文本,接着依据视觉信息和初始转写文本进行情感分析生成情感特征标签,最后基于该标签对初始转写文本优化校正得到目标转写文本,解决了语音识别转写难以适应方言多样性、忽视情感信息导致识别准确率和鲁棒性不足的技术问题,通过多模态信息的融合及情感分析,能更精准地识别语音内容并优化转写文本,提高了语音识别转写的准确性和质量。
技术关键词
方言词汇 融合特征 情感特征 转写方法 预训练语言模型 多模态 编码 面部表情特征 标签 校正 视觉 语义特征 动作特征 语音特征 文本情感分析 信号 自然语言理解
系统为您推荐了相关专利信息
硬盘故障预测方法 样本 偏移特征 神经网络单元 融合特征
颗粒沉降速率 微藻生长速率 养殖尾水 稳态 营养盐
跟踪方法 全局特征提取 无人机 图像 多层注意力
语音噪声 噪声样本 噪声抑制方法 融合特征 音频特征
融合特征 残差神经网络 局部空间特征 多尺度特征提取 语义特征