摘要
本发明公开了一种基于视频流与语音的实时情绪识别系统及方法,该系统包括:数据采集模块:用于通过摄像头实时采集用户面部表情的视频帧,同时通过麦克风实时采集用户的语音信号;特征提取模块:用于将视频帧输入卷积神经网络以提取视觉特征,同时将语音信号输入长短期记忆网络以提取时序特征;加权融合模块:用于将视觉特征和时序特征进行加权融合,生成多模态特征向量;情绪识别模块:用于调用外部大模型的API,对视频帧中的情绪进行进一步识别,获取外部大模型反馈的情绪识别结果,并将外部大模型反馈的情绪识别结果与多模态特征向量进行进一步结合,以生成并输出最终的情绪识别结果。本发明能够提高情绪识别的准确性、高效性与实时性。