一种多模态视频数据与文本数据混合融合方法及系统

申请号：CN202510997238

申请日期：2025-07-18

公开号：CN120850224A

公开日期：2025-10-28

类型：发明专利

摘要

本发明属于视频特征解析技术领域，尤其涉及一种多模态视频数据与文本数据混合融合方法及系统，包括：基础模态融合与语义引导的多模态融合；使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3；通过文本特征编码器提取:文本数据；使用彩色视频数据作为视觉数据1，深度数据作为视觉数据2，红外数据作为视觉数据3，这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补；随后，系统进入语义引导的多模态融合阶段，在这个阶段通过构建语义注意力权重，将文本语义特征动态映射到视觉特征空间，以此指导多模态视觉特征的融合过程。

技术关键词

融合方法多路径特征融合视觉特征文本多模态融合特征彩色视频数据信息交互机制编码器特征提取模块语义注意力注意力参数语义特征通道注意力机制

系统为您推荐了相关专利信息

理赔方案生成方法、训练方法、装置、设备及存储介质

检索标签理赔案件案件数据生成方法文本

基于全模态理解的镜头标签提取方法、设备和介质

标签提取方法视频视觉镜头三维卷积神经网络

一种基于电子人工喉音频输入信号的智能语音合成系统

电子人工喉语音识别模块智能语音信号处理模块电子喉

一种语音生成方法、装置、电子设备及可读存储介质

语音生成方法间隔特征习惯语音生成模型统计学方法

一种输电导线弧垂测量方法、装置及计算机程序产品

激光点云数据输电导线弧垂多模态特征融合注意力机制计算机程序产品