摘要
本发明涉及图像识别的技术领域,提供了基于人工智能的视频目标识别方法、装置及存储介质,包括获取目标视频的视频帧数据序列,对视频帧数据序列进行多维分析,得到全局视频帧信息和局部感兴趣区域信息,基于全局视频帧信息和局部感兴趣区域信息生成目标特征图后进行时序模式分析,得到时序演化特征,结合生成语义表示向量,将语义表示向量输入预设的自适应Transformer模型进行目标识别,得到目标识别结果。通过特征融合生成语义表示向量,并利用自适应Transformer模型进行目标识别,提升复杂场景下的目标识别精度,改善在处理复杂场景、动态变化和长时间序列分析时,存在着检测精度不高、时序信息利用不足的问题。