摘要
本公开提供一种视频数据处理方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。方法包括:对待处理视频进行切分处理,得到多个视频片段;根据视频片段的媒体标识、生物特征、质量评估结果中的至少一项,对视频片段进行打标处理,得到带标注视频片段;通过预设过滤机制,对带标注视频片段进行过滤处理,以将不满足质量要求的所述带标注视频片段删除;对过滤后剩余的带标注视频片段进行裁剪处理,得到目标视频片段;通过视觉大语言模型,为目标视频片段生成文本描述,并将目标视频片段和目标视频片段的文本描述,作为待训练视频生成大模型的训练样本。