一种双模态语义驱动三维沉浸式远程呈现方法及系统

申请号：CN202510382420

申请日期：2025-03-28

公开号：CN120238639A

公开日期：2025-07-01

类型：发明专利

摘要

本发明涉及一种双模态语义驱动三维沉浸式远程呈现方法及系统，该方法包括：采集原始视频数据和原始音频数据；对原始音频数据进行人声分离，得到纯净音频语义特征；通过三维头部模型提取原始视频数据的面部特征点并计算头部姿态欧拉角，得到头部姿态语义特征；将纯净音频语义特征和头部姿态语义特征编码并添加时间戳获得字节流，通过网络多路复用将字节流同步至接收端；通过同步的三维头部模型，由接收端根据字节流进行图像重建，并基于在线资源调度算法对生成的图像进行帧插值处理和超分辨率处理，获得三维沉浸式远程呈现视频。本发明能够缩短视频远程呈现延迟，还平衡了设备能力和生成质量，提升了用户体验。

技术关键词

远程呈现方法三维头部模型双模态资源调度算法字节流音频多路复用人声接收端面部特征点视频图像重建数据语义特征选取远程呈现系统超分辨率