摘要
本发明公开了一种基于双重跨模态注意力的表情运动单元检测方法,通过视觉编码器、局部感知注意力矩阵和图卷积网络获得精细化的多粒度视觉特征表示;利用多层次编码过程,先建模AU描述中单词间的语义关联,后建模不同AU描述之间的句子级的语义关联,有效挖掘AU描述中的丰富语义信息,显著增强AU文本特征的表达能力;设计了一种全局与局部协同的双重跨模态注意力策略,以实现视觉与文本模态深度交互,帮助模型更全面地理解视觉和文本模态之间的复杂语义关联,增强AU特征表示。最终,通过结合多粒度视觉特征和多层次文本特征,以及双重跨模态注意力的协同作用,构建了一个强大的深度学习框架,有效提升表情运动单元检测的性能。