摘要
本申请提供一种多模态联合注意力自动检测方法、装置及终端。该方法包括:获取待检测的人物互动视频,并将所述人物互动视频拆分成多帧图像;对每帧图像进行预处理,获得每帧图像对应的头部图像以及注视热图;将每帧图像及其对应的头部图像和注视热图输入至预先训练好的多模态注视区域估计模型中,获得每帧图像对应的注视点热图以及注视分类结果;基于各帧图像分别对应的注视点热图,根据预先设定的联合注意力检测规则,对所述人物互动视频进行联合注意力检测,得到所述人物互动视频对应的联合注意力检测结果。本申请实现了联合注意力的自动识别,提高了联合注意力识别的准确性与稳定性。