长持续时间结构化视频动作分割

申请号：CN202411038625

申请日期：2024-07-31

公开号：CN119559537A

公开日期：2025-03-04

类型：发明专利

摘要

本申请涉及长持续时间结构化视频动作分割。机器学习模型可以处理视频并且生成输出，例如将视频的一些部分指派给特定动作的动作分割，或者为视频的每一帧指派动作类别的动作分类。一些机器学习模型可以对短视频准确地作出预测，但可能并不特别适合对长持续时间、结构化的视频执行动作分割。一种有效的机器学习模型可以包括一种涉及时间卷积网络和双向图神经网络的混合体系结构。机器学习模型可以通过以下方式来处理长持续时间结构化视频：使用时间卷积网络作为第一道动作分割模型来生成丰富的帧级特征。帧级特征可以被转换为具有前向边缘和后向边缘的图。图神经网络可以对图进行处理，以细化最终的细粒度每帧动作预测。

技术关键词

时间卷积网络机器学习模型三维卷积神经网络视频帧节点非暂态计算机可读介质序列混合体系结构指派加法器内核转换器处理器存储设备阶段指令消息