摘要
本申请涉及长持续时间结构化视频动作分割。机器学习模型可以处理视频并且生成输出,例如将视频的一些部分指派给特定动作的动作分割,或者为视频的每一帧指派动作类别的动作分类。一些机器学习模型可以对短视频准确地作出预测,但可能并不特别适合对长持续时间、结构化的视频执行动作分割。一种有效的机器学习模型可以包括一种涉及时间卷积网络和双向图神经网络的混合体系结构。机器学习模型可以通过以下方式来处理长持续时间结构化视频:使用时间卷积网络作为第一道动作分割模型来生成丰富的帧级特征。帧级特征可以被转换为具有前向边缘和后向边缘的图。图神经网络可以对图进行处理,以细化最终的细粒度每帧动作预测。