视频理解方法、视频理解系统和计算机设备

申请号：CN202510991459

申请日期：2025-07-18

公开号：CN120492863B

公开日期：2025-12-23

类型：发明专利

摘要

本申请涉及一种视频理解方法、视频理解系统和计算机设备，通过获取流媒体数据和文本数据，基于流媒体数据提取出第一音频特征向量和第一图像特征向量，基于文本数据提取出文本特征向量；分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理，得到音频特征增强向量和图像特征增强向量；将音频特征增强向量和图像特征增强向量映射至文本向量空间，并与文本特征向量进行融合，得到多模态特征融合向量；以多模态特征融合向量作为多模态融合预训练任务的输入，计算损失函数，并通过反向传播调整多模态大模型的权重参数，直至损失函数收敛；将目标视频输入至经训练的多模态大模型进行处理，输出视频理解内容；解决了单模态偏差问题。

技术关键词

视频理解方法多模态特征融合音频特征图像特征向量文本特征向量文本数据提取理解系统损失函数优化模块时序计算机设备网络音频编码器关键帧

系统为您推荐了相关专利信息

元功能组件调用方法、装置、计算机设备及可读存储介质

组件调用方法文本特征向量意图识别场景语义

视频帧的确定方法、装置及电子设备

视频帧非易失性存储介质矩阵视觉特征顶点

肿瘤风险预测方法、装置和存储介质

多模态特征融合肿瘤风险预测方法深度学习神经网络风险预测装置

一种基于人工智能模型的网络流量威胁检测方法

威胁检测方法人工智能模型网络流量数据异常流量预测误差

基于多模态特征的伪造视频判别方法、装置、设备及介质

时间序列特征多模态特征音频特征判别方法画面