摘要
本发明公开了一种故事情节驱动的口述影像生成方法及系统,其中的方法包括情节驱动的故事解译和基于大语言模型的文本生成两个关键部分。首先,通过情节驱动的故事解译进行视频特征的增强,该部分利用已知的情节要素来深度理解当前视频片段,并结合对相关历史情节的回溯,构建出既包含当前关键信息又与上下文逻辑一致的叙事基础。然后进入基于大语言模型的文本生成,部分接收故事解译阶段处理后的信息,并利用大型语言模型(LLM)强大的文本生成能力,生成符合情节内容、自然流畅且连贯的口述影像叙述文本,并可结合提示工程进行风格控制。本发明通过强化情节理解与优化叙事上下文,并利用大语言模型生成文本,显著提升了口述影像生成的质量。