基于多模态动态提示与时空稀疏化的视频动作定位方法

申请号：CN202510356816

申请日期：2025-03-25

公开号：CN120412070B

公开日期：2026-01-02

类型：发明专利

摘要

本发明涉及视频理解技术领域，具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法，该方法包括：利用预设深度学习模型的多模态动态提示生成器，生成全局特征向量与提示向量，利用预设深度学习模型的空间剪枝模块，得到时空稀疏化的时序聚合特征并压缩得到目标视频特征；利用预设深度学习模型中的自注意力模块与双向LSTM网络，并结合每个样本视频的目标视频特征与动作类别标签数据，对预设深度学习模型进行迭代训练，得到视频动作定位模型，并将待测视频输入至视频动作定位模型，得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时，还能满足视频动作定位的实时性需求，并大幅提高视频动作定位的准确性。

技术关键词

视频深度学习模型动作定位方法多模态文本特征向量样本特征提取模型文本编码器多层感知器动作定位系统时序动态注意力标签全局平均池化可读存储介质数据模块理解技术电子设备