摘要
本申请提供了一种视频语言模型的训练方法以及人体交互行为识别方法,涉及计算机视觉识别技术领域,包括:获取视频样本以及视频样本中针对人体交互行为的动作描述文本数据;确定视频样本对应的第一视频特征和第一物体位置特征;基于第一视频特征和第一物体位置特征确定L层多头自注意力块中每层多头自注意力块输出的视觉联合特征;基于动作描述文本数据和视觉联合特征,确定L层多模态细化学习模块中最后一层多模态细化学习模块输出的视觉表示、文本表示以及多模态表示,基于视觉表示、文本表示以及多模态表示,更新视频语言模型的模型参数,直至得到训练完成的目标视频语言模型。本申请可提高人体交互行为识别的精准度。