摘要
本发明公开了一种XR场景实时人体姿态追踪方法及系统,本发明涉及计算机视觉技术领域,解决了无法突破视觉与时序特征的模态壁垒以及扩散模型退化的技术问题,本发明通过针对 RGB 图像,动态高斯滤波和ROI裁剪,既抑制噪声又聚焦人体区域,历史姿态归一化覆盖空间、时间、生理约束,确保输入数据物理意义一致,实现多维度、场景自适应的预处理,为后续算法奠定数据基础,交叉注意力机制打破视觉与时序特征的模态边界,生成多模态条件向量,同时编码当前肢体外观与历史运动趋势,为扩散模型提供精准推理依据,实现动态、场景自适应的特征协同,基于前5帧构建理论姿态,与扩散模型初步预测动态融合,契合运动惯性则保留细节。