摘要
本申请提供一种视频理解的处理方法、装置、设备以及存储介质,属于视频理解的技术领域。所述方法包括获取目标视频和目标提问文本,并根据所述目标提问文本,生成视频段检索指示文本;将所述目标视频、目标提问文本和所述视频段检索指示文本输入所述粗粒度视频大语言模型,所述视频段检索指示文本用于指示所述粗粒度视频大语言模型在所述目标视频中提取与所述目标提问文本相关的关键片段;将所述粗粒度视频大语言模型输出的所述关键片段和所述目标提问文本输入所述细粒度视频大语言模型,所述细粒度视频大语言模型用于根据所述关键片段和所述目标提问文本输出最终回答。本申请旨在提高视频理解结果准确性。