一种基于语义增强和多尺度特征融合的人体姿态估计方法
申请号:CN202411829878
申请日期:2024-12-12
公开号:CN119763189B
公开日期:2025-12-30
类型:发明专利
摘要
本发明公开了一种基于语义增强和多尺度特征融合的人体姿态估计方法。所述方法包括以下步骤:在MobileNetV2网络的基础上构建特征金字塔,统一不同尺度特征的分辨率并拼接;将拼接之后的特征输入到基于EfficientVit的尺度感知语义模块,生成尺度感知的全局语义表示;构建深层语义注入模块,将尺度感知的全局语义与对应的特征进行融合,采用上下文指导的注意力机制选择性强化相关特征;自适应多尺度特征融合,网络能够自适应地调整感受野大小,以更好地捕捉不同尺度的人体关键点特征,同时提高深浅层特征的利用率;使用1×1卷积层构建关键点检测头得到最终的关键点热图输出。本发明的模型能更好地感知人体姿态的语义特征和多尺度视觉线索,从而显著提升模型的泛化能力。
技术关键词
人体姿态估计方法
特征金字塔
多尺度特征融合
注意力机制
人体关键点
语义特征
输出特征
模块
分支
定位信息融合
高层语义信息
细粒度特征
三明治
级联
通道
分辨率
网络