摘要
本发明公开了一种基于BPE的视频模态特征处理方法及系统,方法包括将视频帧通过BPE算法进行合并,达到设定数量的视频帧后进行视频编码得到视频特征向量表示,或者将视频帧通过视频编码后再通过BPE算法进行合并得到视频帧特征向量;将文本进行编码得到文本特征向量表示;将文本特征向量表示和视频特征向量表示进行线性变换,或者将文本特征向量表示和视频帧特征向量进行线性变换,得到多模态特征向量表示;通过大语言模型处理多模态特征向量表示,生成多维度的视频内容表示。本发明通过BPE算法能够适应不同长度的视频内容,确保无论视频的长短,其关键信息都能得到有效保留,为video LLMs提供了数据基础,使其能够全面理解视频内容。