摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法,该方法包括:利用预设深度学习模型的多模态动态提示生成器,生成全局特征向量与提示向量,利用预设深度学习模型的空间剪枝模块,得到时空稀疏化的时序聚合特征并压缩得到目标视频特征;利用预设深度学习模型中的自注意力模块与双向LSTM网络,并结合每个样本视频的目标视频特征与动作类别标签数据,对预设深度学习模型进行迭代训练,得到视频动作定位模型,并将待测视频输入至视频动作定位模型,得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时,还能满足视频动作定位的实时性需求,并大幅提高视频动作定位的准确性。