一种基于音视频对齐多模态模型的情感识别方法及系统

申请号：CN202510933538

申请日期：2025-07-08

公开号：CN120805051A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于音视频对齐多模态模型的情感识别方法及系统，涉及特征识别技术领域，包括，获取音频和视频数据，采用多尺度音频增强与子监督学习提取音频特征，并通过多视角对比学习提取视频特征，通过局部对齐和全局对齐将音频特征与视频特征进行对齐操作；分别计算对齐后音频特征与视频特征单模态注意力进行跨模态特征对齐和特征融合，基于融合后的特征进行情感识别分类；将情感分类结果进行展示，并将分类结果形成记录存储至数据库中。本发明确保音频与视频信号能够在多个层次上进行精确的对齐与融合，并且采用单模态注意力机制进行跨模态特征对齐和融合，显著提高了模型在复杂情感分类任务中的表现。

技术关键词

音频特征情感识别方法音视频多模态跨模态多尺度滑动窗口梯度下降法情感特征数据情感识别系统特征识别技术注意力机制多视角特征深度学习模型