基于多模态对比学习的多视角专注度识别方法及系统

申请号：CN202511176038

申请日期：2025-08-21

公开号：CN120913284A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供基于多模态对比学习的多视角专注度识别方法及系统，包括：构建涵盖行为维度、情感维度及认知维度的专注度视觉属性集；利用大语言模型对专注度视觉属性集生成描述专注度类别的类特定提示及描述单帧视觉特征的帧特定提示；基于类特定提示和帧特定提示，作为文本编码器输入，结合视频编码器预设的提示，输出多模态特征；对多模态特征，执行视频到文本的对齐和文本到视频的对齐，计算全局和局部对齐相似度分数；基于全局和局部对齐相似度分数，构建对比损失函数，完成识别。

技术关键词

专注度识别方法视角多模态特征视频编码器视觉特征大语言模型文本编码器注意力样本语义细粒度特征融合全局可读存储介质处理器时序特征