一种基于语义增强和多尺度特征融合的人体姿态估计方法

申请号：CN202411829878

申请日期：2024-12-12

公开号：CN119763189B

公开日期：2025-12-30

类型：发明专利

摘要

本发明公开了一种基于语义增强和多尺度特征融合的人体姿态估计方法。所述方法包括以下步骤：在MobileNetV2网络的基础上构建特征金字塔，统一不同尺度特征的分辨率并拼接；将拼接之后的特征输入到基于EfficientVit的尺度感知语义模块，生成尺度感知的全局语义表示；构建深层语义注入模块，将尺度感知的全局语义与对应的特征进行融合，采用上下文指导的注意力机制选择性强化相关特征；自适应多尺度特征融合，网络能够自适应地调整感受野大小,以更好地捕捉不同尺度的人体关键点特征，同时提高深浅层特征的利用率；使用1×1卷积层构建关键点检测头得到最终的关键点热图输出。本发明的模型能更好地感知人体姿态的语义特征和多尺度视觉线索，从而显著提升模型的泛化能力。

技术关键词

人体姿态估计方法特征金字塔多尺度特征融合注意力机制人体关键点语义特征输出特征模块分支定位信息融合高层语义信息细粒度特征三明治级联通道分辨率网络