解说视频的生成方法、装置、介质、电子设备及程序产品
申请号:CN202511189409
申请日期:2025-08-22
公开号:CN120881360A
公开日期:2025-10-31
类型:发明专利
摘要
一种解说视频的生成方法、装置、介质、电子设备及程序产品。方法包括:针对第一视频对应的台词文本中的每句台词,获取该句台词对应的第一时段,并从该句台词对应的第一视频片段中抽取第一视频帧,第一视频片段来自第一视频;根据台词文本中每句台词各自对应的第一时段、第一视频帧及第一视频片段,通过多模态大模型生成第一视频的解说视频。以台词文本中的每句台词为单位,从各句台词对应的第一视频片段中分别抽取部分视频帧,实现更加紧凑、合理的动态视频帧采样,使得采样能更稀疏的同时减少了关键信息丢失,从而使得多模态大模型能处理更长的视频,上下文更加丰富,进而使得角色的理解更准确,提升解说视频的准确性。
技术关键词
视频帧
文本
多模态
风格
摘要
标签
生成方法
大语言模型
存储装置
电子设备
场景类别
计算机程序产品
镜头
音频
生成装置
介质
视觉
模块