视频理解方法、视频理解系统和计算机设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
视频理解方法、视频理解系统和计算机设备
申请号:CN202510991459
申请日期:2025-07-18
公开号:CN120492863B
公开日期:2025-12-23
类型:发明专利
摘要
本申请涉及一种视频理解方法、视频理解系统和计算机设备,通过获取流媒体数据和文本数据,基于流媒体数据提取出第一音频特征向量和第一图像特征向量,基于文本数据提取出文本特征向量;分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量;将音频特征增强向量和图像特征增强向量映射至文本向量空间,并与文本特征向量进行融合,得到多模态特征融合向量;以多模态特征融合向量作为多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至损失函数收敛;将目标视频输入至经训练的多模态大模型进行处理,输出视频理解内容;解决了单模态偏差问题。
技术关键词
视频理解方法 多模态特征融合 音频特征 图像特征向量 文本特征向量 文本数据提取 理解系统 损失函数优化 模块 时序 计算机设备 网络 音频编码器 关键帧
系统为您推荐了相关专利信息
组件调用方法 文本特征向量 意图识别 场景 语义
视频帧 非易失性存储介质 矩阵 视觉特征 顶点
多模态特征融合 肿瘤 风险预测方法 深度学习神经网络 风险预测装置
威胁检测方法 人工智能模型 网络流量数据 异常流量 预测误差
时间序列特征 多模态特征 音频特征 判别方法 画面