一种视频理解的处理方法、装置、设备以及存储介质

申请号：CN202510738183

申请日期：2025-06-04

公开号：CN120564105A

公开日期：2025-08-29

类型：发明专利

摘要

本申请提供一种视频理解的处理方法、装置、设备以及存储介质，属于视频理解的技术领域。所述方法包括获取目标视频和目标提问文本，并根据所述目标提问文本，生成视频段检索指示文本；将所述目标视频、目标提问文本和所述视频段检索指示文本输入所述粗粒度视频大语言模型，所述视频段检索指示文本用于指示所述粗粒度视频大语言模型在所述目标视频中提取与所述目标提问文本相关的关键片段；将所述粗粒度视频大语言模型输出的所述关键片段和所述目标提问文本输入所述细粒度视频大语言模型，所述细粒度视频大语言模型用于根据所述关键片段和所述目标提问文本输出最终回答。本申请旨在提高视频理解结果准确性。

技术关键词

大语言模型文本视频段非易失性可读存储介质样本强化学习策略视觉处理器存储器标签电子设备模块

系统为您推荐了相关专利信息

基于多模态行为路径链的个性化操作指南智能生成方法

智能生成方法视觉特征对象多模态意图

基于大模型和知识图谱的控制系统故障推理溯源方法及系统

图谱溯源方法三元组故障知识库推理算法

一种具备BIT能力的智能故障诊断装置和方法

智能故障诊断装置故障预测模型现场可更换单元故障发生率处理单元

一种基于双重多样性生成的文本增强方法

词语关键词抽取方法分词样本中文文本分类

一种基于大数据模型的智能疏水方法

疏水方法参数样本神经网络模型节点