基于多模态大模型的视频处理方法、装置、设备及介质

申请号：CN202411622513

申请日期：2024-11-13

公开号：CN119579414A

公开日期：2025-03-07

类型：发明专利

摘要

本申请涉及计算机视觉技术领域，尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时，不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型，还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中，使大语言模型在进行处理时能够清楚该关键子图像中包括的信息，进而提高了多模态大模型对视频进行处理的准确率。

技术关键词

图像分辨率多模态多层感知器视频矩阵大语言模型计算机视觉技术分块编码文本特征提取模块电子设备处理器可读存储介质像素偏差存储器