一种基于多模态深度学习的第一人称视角注视点预测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态深度学习的第一人称视角注视点预测方法
申请号:CN202410928015
申请日期:2024-07-11
公开号:CN118821047A
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
技术关键词
注视点预测方法 多模态深度学习 视频编码器 视角 融合特征 音频特征 动态卷积神经网络 音频编码器 解码器 重构模块 模态特征 注意力 上采样 滑动窗口 跨模态
系统为您推荐了相关专利信息
动作识别方法 融合特征 预测类别 压缩特征 标签类别
轧制方法 齿轮钢 大规格 独立冷却系统 多角度环形光源
面片 语义分割方法 语义分割网络 嵌入特征 上下文特征
融合注意力机制 图像识别方法 多标签图像 颜色直方图 像素点
支持向量机算法 计算机视觉 编码转换单元 处理单元 多视角图像采集