基于多模态动态提示与时空稀疏化的视频动作定位方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态动态提示与时空稀疏化的视频动作定位方法
申请号:CN202510356816
申请日期:2025-03-25
公开号:CN120412070B
公开日期:2026-01-02
类型:发明专利
摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法,该方法包括:利用预设深度学习模型的多模态动态提示生成器,生成全局特征向量与提示向量,利用预设深度学习模型的空间剪枝模块,得到时空稀疏化的时序聚合特征并压缩得到目标视频特征;利用预设深度学习模型中的自注意力模块与双向LSTM网络,并结合每个样本视频的目标视频特征与动作类别标签数据,对预设深度学习模型进行迭代训练,得到视频动作定位模型,并将待测视频输入至视频动作定位模型,得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时,还能满足视频动作定位的实时性需求,并大幅提高视频动作定位的准确性。
技术关键词
视频 深度学习模型 动作定位方法 多模态 文本特征向量 样本 特征提取模型 文本编码器 多层感知器 动作定位系统 时序 动态 注意力 标签 全局平均池化 可读存储介质 数据 模块 理解技术 电子设备