摘要
本申请提供了一种视频描述信息生成方法、装置、电子设备和存储介质。该方法包括:获取预设描述信息生成模型,以及视频流;将视频流输入预设描述信息生成模型,生成视频流的视频描述信息;其中,预设描述信息生成模型获取视频流中的GOP,将每个GOP内的帧压缩信息通过预设编码模型生成Token;并使用预设大语言模型生成每个Toke对应的视频描述信息,将所有GOP对应的视频描述信息按照对应GOP在视频流中的顺序拼接,生成视频流的视频描述信息。该方法基于包括完整GOP的视频流即可在低计算要求的前提下准确生成对应视频流的视频描述信息。