摘要
本发明公开了一种基于面部表情与上下文情境的学业情绪识别方法及装置。该方法通过利用视觉语言预训练模型CLIP,结合视频序列中的学生面部表情与学习情境的上下文信息,实现精准的情绪建模。具体而言,本发明首先对人脸表情和学习情景中的上下文信息进行协同建模,显著提升了识别学生学习状态(如专注学习、分心)的能力;其次,通过利用CLIP预训练模型强大的语言与视觉特征对齐能力,有效降低了对大规模视频训练数据的依赖,提高了模型的泛化能力和实用性。本发明为学业情绪识别提供了一种精准可行的解决方案,适用于教育场景中的学生学业情绪的监测与分析。