一种基于大语言模型的视频理解方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的视频理解方法及系统
申请号:CN202410825619
申请日期:2024-06-25
公开号:CN118865196B
公开日期:2025-08-29
类型:发明专利
摘要
本发明涉及视频处理技术领域,具体说是一种基于大语言模型的视频理解方法及系统,包括获取视频问答示例,形成视频问答数据集,对所述视频问答数据集进行预处理,获得视频问答数据集的向量表示特征,将已有文本‑图像模型改组为视频特征提取模型,利用所述视频特征提取模型处理向量表示特征,获取视频分析结果向量特征,利用大语言模型分析视频分析结果向量特征,得到对应视频问答示例的答案,本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答,可以提高回答准确率,并节省训练算力以及数据资源。
技术关键词
视频特征提取 视频分析 视频理解方法 空间注意力网络 时序 文本 大语言模型 多模态信息 参数 图像 数据 矩阵 理解系统 视频处理程序 答案 通道 语言分析
系统为您推荐了相关专利信息
多模态传感器 LSTM神经网络 齿轮箱 分类方法 云端服务器
危害程度评估方法 作物病害监测 作物生长形态 阶段 数据
改性吸附剂 工业控制系统 时序 多元醇 压力
事件相机 深度神经网络 采集箱体 信号编码 时序
发酵工艺参数 改性活性炭 时序 深度神经网络模型 复合菌剂