解说视频的生成方法、装置、介质、电子设备及程序产品

申请号：CN202511189409

申请日期：2025-08-22

公开号：CN120881360A

公开日期：2025-10-31

类型：发明专利

摘要

一种解说视频的生成方法、装置、介质、电子设备及程序产品。方法包括：针对第一视频对应的台词文本中的每句台词，获取该句台词对应的第一时段，并从该句台词对应的第一视频片段中抽取第一视频帧，第一视频片段来自第一视频；根据台词文本中每句台词各自对应的第一时段、第一视频帧及第一视频片段，通过多模态大模型生成第一视频的解说视频。以台词文本中的每句台词为单位，从各句台词对应的第一视频片段中分别抽取部分视频帧，实现更加紧凑、合理的动态视频帧采样，使得采样能更稀疏的同时减少了关键信息丢失，从而使得多模态大模型能处理更长的视频，上下文更加丰富，进而使得角色的理解更准确，提升解说视频的准确性。

技术关键词

视频帧文本多模态风格摘要标签生成方法大语言模型存储装置电子设备场景类别计算机程序产品镜头音频生成装置介质视觉模块