一种基于大语言模型的视频理解方法及系统

申请号：CN202410825619

申请日期：2024-06-25

公开号：CN118865196B

公开日期：2025-08-29

类型：发明专利

摘要

本发明涉及视频处理技术领域，具体说是一种基于大语言模型的视频理解方法及系统，包括获取视频问答示例，形成视频问答数据集，对所述视频问答数据集进行预处理，获得视频问答数据集的向量表示特征，将已有文本‑图像模型改组为视频特征提取模型，利用所述视频特征提取模型处理向量表示特征，获取视频分析结果向量特征，利用大语言模型分析视频分析结果向量特征，得到对应视频问答示例的答案，本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答，可以提高回答准确率，并节省训练算力以及数据资源。

技术关键词

视频特征提取视频分析视频理解方法空间注意力网络时序文本大语言模型多模态信息参数图像数据矩阵理解系统视频处理程序答案通道语言分析

系统为您推荐了相关专利信息

齿轮箱工况分类方法及系统

多模态传感器 LSTM神经网络齿轮箱分类方法云端服务器

一种作物病害监测及危害程度评估方法及系统

危害程度评估方法作物病害监测作物生长形态阶段数据

用于纯化二氧化碳基多元醇的双改性吸附剂制备的工业控制系统

改性吸附剂工业控制系统时序多元醇压力

基于事件相机的空箱检测方法

事件相机深度神经网络采集箱体信号编码时序

用于voc废气处理的改性活性炭生产方法及系统

发酵工艺参数改性活性炭时序深度神经网络模型复合菌剂