基于大模型的解说视频生成方法、装置、设备和介质

申请号：CN202511039028

申请日期：2025-07-25

公开号：CN120786152A

公开日期：2025-10-14

类型：发明专利

摘要

本公开提供了一种基于大模型的解说视频生成方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及多模态、自然语言处理、计算机视觉和深度学习等技术领域。该方法包括：获取待处理视频中的多个字幕文本和对应的第一时间戳；基于多个字幕文本的第一时间戳，确定待处理视频中的至少一个无字幕片段和对应的第二时间戳；利用第一多模态大模型对至少一个无字幕片段进行视觉内容理解，得到与至少一个无字幕片段对应的至少一个字幕补全文本；利用大语言模型，基于多个字幕文本和对应的第一时间戳以及至少一个字幕补全文本和对应的第二时间戳，生成针对待处理视频的解说词；以及基于解说词，生成解说视频。

技术关键词

字幕语义标签分段文本视频生成方法大语言模型语义向量镜头多模态生成模板情感分析模型视频生成装置依存句法分析关键词处理器人工智能技术计算机程序产品