摘要
本发明公开了一种泰勒增强混合架构的人体自我中心行为识别方法,属于计算机视觉领域;具体为:采集用户手物交互行为的连续RGB视频;然后,将其转换对应的泰勒帧序列;通过动态替换模态策略,形成泰勒增强后的混合数据,构建多样化的训练样本分布;接着,提取统一的初级图像特征,分别预测手物交互中的物体类别以及解码手部关键点的位置,并转换为动作输入特征,与原始的初级图像特征拼接,作为Transformer‑状态空间混合网络架构的输入,输出的行为特征映射到动作类别空间,通过softmax函数得到预测标签和每个类别的概率分布,选择最大概率值对应的即为预测的手物交互行为标签。本发明提高了模型的鲁棒性和泛化能力,行为识别准确率和高分辨率图像序列推理速度。