摘要
本发明涉及图像或视频识别领域,尤其涉及一种可学习低秩双线性行为感知方法,包括:(1)建立以图像大模型为基础加入视频时空建模迁移至视频任务的框架;(2)在框架内构建视频行为识别模型,包括:视频编码器、多尺度聚合器、文本编码器、多任务解码器;(3)构建一种大模型主分支冻结仅新加参数学习的训练机制,利用服务器对视频行为识别模型进行训练,通过优化目标函数,直至网络收敛,获取局部最优网络参数,得到训练好的视频行为识别模型;(4)将待识别的视频序列输入到训练好的视频行为识别模型中识别人类行为。本发明的有益效果在于:能高精度地识别视频中的人类行为,在多个动作识别数据集中达到了先进的性能。