一种基于多模态深度学习的第一人称视角注视点预测方法
申请号:CN202410928015
申请日期:2024-07-11
公开号:CN118821047A
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
技术关键词
注视点预测方法
多模态深度学习
视频编码器
视角
融合特征
音频特征
动态卷积神经网络
音频编码器
解码器
重构模块
模态特征
注意力
上采样
滑动窗口
跨模态