一种泰勒增强混合架构的人体自我中心行为识别方法

申请号：CN202510334304

申请日期：2025-03-20

公开号：CN120340117A

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种泰勒增强混合架构的人体自我中心行为识别方法，属于计算机视觉领域；具体为：采集用户手物交互行为的连续RGB视频；然后，将其转换对应的泰勒帧序列；通过动态替换模态策略，形成泰勒增强后的混合数据，构建多样化的训练样本分布；接着，提取统一的初级图像特征，分别预测手物交互中的物体类别以及解码手部关键点的位置，并转换为动作输入特征，与原始的初级图像特征拼接，作为Transformer‑状态空间混合网络架构的输入，输出的行为特征映射到动作类别空间，通过softmax函数得到预测标签和每个类别的概率分布，选择最大概率值对应的即为预测的手物交互行为标签。本发明提高了模型的鲁棒性和泛化能力，行为识别准确率和高分辨率图像序列推理速度。

技术关键词

混合网络架构识别方法手部关键点空间模块图像姿态特征序列标签人体物体支路状态空间模型深度神经网络多层感知器计算机视觉注意力机制解码状态更新数据