一种基于多模态深度学习的第一人称视角注视点预测方法

申请号：CN202410928015

申请日期：2024-07-11

公开号：CN118821047A

公开日期：2024-10-22

类型：发明专利

摘要

本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法，包括：获取待预测的第一人称视角视频数据，对视频进行预处理以及提取音频操作，获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本；构建基于多模态深度学习的第一人称视角注视点预测模型，将所述训练样本输入所述注视点预测模型，输出第一人称视角注视点预测结果；其中，首先通过模型中的编码器提取所述训练样本的音频特征和视频特征，将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合，将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性，在全局和局部尺度上进行了多模态融合建模，结合多尺度编解码器设计，有效提高了第一人称视角注视点预测的准确性。

技术关键词

注视点预测方法多模态深度学习视频编码器视角融合特征音频特征动态卷积神经网络音频编码器解码器重构模块模态特征注意力上采样滑动窗口跨模态

系统为您推荐了相关专利信息

动作识别方法、装置、电子设备及存储介质

动作识别方法融合特征预测类别压缩特征标签类别

一种提高大规格齿轮钢晶粒度的轧制方法

轧制方法齿轮钢大规格独立冷却系统多角度环形光源

基于类别中心对比学习的城市三维网格语义分割方法

面片语义分割方法语义分割网络嵌入特征上下文特征

融合注意力机制的多标签图像识别方法及装置

融合注意力机制图像识别方法多标签图像颜色直方图像素点

基于计算机视觉的羊智能表型测定系统

支持向量机算法计算机视觉编码转换单元处理单元多视角图像采集