一种基于BPE的视频模态特征处理方法及系统

申请号：CN202411082160

申请日期：2024-08-08

公开号：CN119110129A

公开日期：2024-12-10

类型：发明专利

摘要

本发明公开了一种基于BPE的视频模态特征处理方法及系统，方法包括将视频帧通过BPE算法进行合并，达到设定数量的视频帧后进行视频编码得到视频特征向量表示，或者将视频帧通过视频编码后再通过BPE算法进行合并得到视频帧特征向量；将文本进行编码得到文本特征向量表示；将文本特征向量表示和视频特征向量表示进行线性变换，或者将文本特征向量表示和视频帧特征向量进行线性变换，得到多模态特征向量表示；通过大语言模型处理多模态特征向量表示，生成多维度的视频内容表示。本发明通过BPE算法能够适应不同长度的视频内容，确保无论视频的长短，其关键信息都能得到有效保留，为video LLMs提供了数据基础，使其能够全面理解视频内容。

技术关键词

视频帧文本特征向量视频特征向量视频编码直方图大语言模型算法分段多模态特征对齐模块元素编码模块基础数据

系统为您推荐了相关专利信息

一种基于临床大数据和状态空间模型的个体化腹腔器官分割及重建方法

医学影像数据数据获取模块编码器临床大数据状态空间模型

一种基于量子图像处理算法的钢筋腐蚀程度检测方法

钢筋腐蚀程度图像处理算法颜色灰度直方图降噪处理过程

基于三维实景的矿山生态修复工程多维数据分析测算方法

矿山生态修复工程图片植被颜色切割算法

视频封面的选择方法、装置、电子设备及存储介质

视频帧姿态检测模型多模态视频封面非易失性计算机可读存储介质

一种视频分类方法、分类模型训练方法及相关装置

多尺度特征视频分类方法特征提取模块注意力状态更新