视频描述信息生成方法、装置、电子设备和存储介质

申请号：CN202511159310

申请日期：2025-08-18

公开号：CN120980319A

公开日期：2025-11-18

类型：发明专利

摘要

本申请提供了一种视频描述信息生成方法、装置、电子设备和存储介质。该方法包括：获取预设描述信息生成模型，以及视频流；将视频流输入预设描述信息生成模型，生成视频流的视频描述信息；其中，预设描述信息生成模型获取视频流中的GOP，将每个GOP内的帧压缩信息通过预设编码模型生成Token；并使用预设大语言模型生成每个Toke对应的视频描述信息，将所有GOP对应的视频描述信息按照对应GOP在视频流中的顺序拼接，生成视频流的视频描述信息。该方法基于包括完整GOP的视频流即可在低计算要求的前提下准确生成对应视频流的视频描述信息。

技术关键词

大语言模型编解码信息生成方法比特流残差信息生成视频流三通道样本编码数据信息生成装置电子设备亮度处理器可读存储介质文本