视频处理方法、装置、电子设备、存储介质及程序产品

申请号：CN202510464452

申请日期：2025-04-14

公开号：CN120568160A

公开日期：2025-08-29

类型：发明专利

摘要

本公开涉及一种视频处理方法、装置、电子设备、存储介质及程序产品，对目标视频进行语音识别，得到识别结果；响应于该识别结果包括多个分句文本和时间戳信息，将该分句文本输入目标大语言模型，输出多个文本分段索引，该多个分句文本为该目标视频对应的音频文本中连续的分句内容，该时间戳信息用于指示该多个分句文本分别与该目标视频的时间戳映射关系，该文本分段索引用于指示该大语言模型将该多个分句文本按照语义划分得到的语义相关且连续的文本片段；基于该时间戳信息和该多个文本分段索引，确定多个视频分段索引，该多个视频分段索引用于将该目标视频分割为多个视频片段，该多个视频片段分别对应该多个分段索引指示的文本片段。

技术关键词

视频文本大语言模型索引分段训练样本集镜头边界计算机程序产品语义电子设备存储计算机程序语音处理器音频输出模块识别模块可读存储介质图像关系