一种在线辅助语音对话场景的多模态情感提示方法及系统
申请号:CN202510073682
申请日期:2025-01-17
公开号:CN119479705B
公开日期:2025-04-18
类型:发明专利
摘要
本发明公开了一种在线辅助语音对话场景的多模态情感提示方法及系统,涉及人工智能技术领域,将语音对话场景中的语音信号输入到训练好的多模态情感提示大模型中,输出情感标签及语音情感提示信息;多模态情感提示大模型的训练过程如下:获取真实对话场景的原始语音数据以构建情感识别的训练数据集;对训练数据集中的原始语音数据进行特征提取,得到原始语音特征向量;将原始语音特征向量输入到稀疏桥接Transformer模块中,输出融合特征;将融合特征输入到大语言模型中,通过文本解码生成连贯的语音情感提示信息,并关联对应的情感标签;该多模态情感提示方法及系统,实现了对在线辅助语音对话场景下语音情感的精准分析与提示。
技术关键词
提示方法
融合特征
交叉注意力机制
标签
场景
语音特征提取
数据
文本
在线
多模态
情感类别
训练语音模型
大语言模型
生成语音
情感分类模型
语音活动检测
矩阵
模块