摘要
本申请涉及图像处理领域,提供了一种多模态行为分析方法、装置、设备及存储介质。该方法包括:切割待分析图像,得到多个待分析子图,相对小的图像尺度既保证检测效果,又消除了完全不存在检测对象的大块区域的干扰,平衡耗时与效果;对多个待分析子图进行特征提取,得到多个局部特征图,从多个局部特征图中,分别获取各检测对象各自的局部特征集,再通过池化各局部特征集,得到各检测对象各自的全局行为特征,基于多视角局部信息重建全局信息,弥补将大尺寸的待分析图像大图切分为小尺寸的待分析子图时带来的信息损失;最终,基于描述特定对象行为的对象行为文本和各检测对象各自的全局行为特征,得到待分析图像中执行特定对象行为的目标对象。