一种基于用户特征的音频分析方法

申请号：CN202510053762

申请日期：2025-01-14

公开号：CN119479707A

公开日期：2025-02-18

类型：发明专利

摘要

本发明涉及音频分析技术领域，具体为一种基于用户特征的音频分析方法，包括：获取目标用户的音频信号，对所述音频信号进行预处理，以得到标准音频信号；对所述标准音频信号进行特征提取，以得到所述标准音频信号所对应的音频特征，其中，所述音频特征包括频谱图和梅尔频率倒谱系数。本发明通过同时提取音频和文本两种特征，并将它们进行融合，从而能够充分利用不同模态的信息，音频特征如频谱图和梅尔频率倒谱系数能够提供声音的语音特性、音调、节奏、语速等信息，而文本特征则能提供语言的语义内容，通过对音频信号和文本的多模态融合，能够充分考虑到语音中的情感色彩及其语言表达，从而提高情感分类的准确性。

技术关键词

音频分析方法音频特征文本融合特征信号编码向量分词音频分析技术梅尔倒谱系数多模态语音识别模型 LSTM模型表达式离散余弦标签频率注意力机制输出特征