摘要
本申请提出了一种面向人物和事件的视频描述生成方法,包括:从视频帧中提取人物信息,构建人物库;将视频输入密集视频描述模型,输出视频概述;选取关键帧序列;通过视觉语言模型生成每个关键帧的描述,并根据人物库对每个关键帧进行人脸识别,采用大语言模型将识别到的人物与对应的关键帧描述融合,得到包含人物信息的关键帧描述;采用大语言模型整合视频概述和所有关键帧描述,得到视频描述;基于视频描述构建知识图谱,并判断知识图谱中的实体和关系是否满足设定条件,若不满足,选取新的关键帧序列,并生成对应的视频描述,若满足,确定最终视频描述。采用上述方案的本发明实现了对视频中复杂场景和多人物交互的准确描述。