摘要
本公开提供了一种基于大模型的解说视频生成方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及多模态、自然语言处理、计算机视觉和深度学习等技术领域。该方法包括:获取待处理视频中的多个字幕文本和对应的第一时间戳;基于多个字幕文本的第一时间戳,确定待处理视频中的至少一个无字幕片段和对应的第二时间戳;利用第一多模态大模型对至少一个无字幕片段进行视觉内容理解,得到与至少一个无字幕片段对应的至少一个字幕补全文本;利用大语言模型,基于多个字幕文本和对应的第一时间戳以及至少一个字幕补全文本和对应的第二时间戳,生成针对待处理视频的解说词;以及基于解说词,生成解说视频。