基于多模态大模型的视频处理方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的视频处理方法、装置、设备及介质
申请号:CN202411622513
申请日期:2024-11-13
公开号:CN119579414A
公开日期:2025-03-07
类型:发明专利
摘要
本申请涉及计算机视觉技术领域,尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时,不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型,还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中,使大语言模型在进行处理时能够清楚该关键子图像中包括的信息,进而提高了多模态大模型对视频进行处理的准确率。
技术关键词
图像 分辨率 多模态 多层感知器 视频 矩阵 大语言模型 计算机视觉技术 分块 编码 文本 特征提取模块 电子设备 处理器 可读存储介质 像素 偏差 存储器