基于多模态大模型的视频处理方法、装置、设备及介质
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于多模态大模型的视频处理方法、装置、设备及介质
申请号:
CN202411622513
申请日期:
2024-11-13
公开号:
CN119579414A
公开日期:
2025-03-07
类型:
发明专利
摘要
本申请涉及计算机视觉技术领域,尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时,不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型,还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中,使大语言模型在进行处理时能够清楚该关键子图像中包括的信息,进而提高了多模态大模型对视频进行处理的准确率。
技术关键词
图像
分辨率
多模态
多层感知器
视频
矩阵
大语言模型
计算机视觉技术
分块
编码
文本
特征提取模块
电子设备
处理器
可读存储介质
像素
偏差
存储器