摘要
本公开涉及一种视频处理方法、装置、电子设备、存储介质及程序产品,对目标视频进行语音识别,得到识别结果;响应于该识别结果包括多个分句文本和时间戳信息,将该分句文本输入目标大语言模型,输出多个文本分段索引,该多个分句文本为该目标视频对应的音频文本中连续的分句内容,该时间戳信息用于指示该多个分句文本分别与该目标视频的时间戳映射关系,该文本分段索引用于指示该大语言模型将该多个分句文本按照语义划分得到的语义相关且连续的文本片段;基于该时间戳信息和该多个文本分段索引,确定多个视频分段索引,该多个视频分段索引用于将该目标视频分割为多个视频片段,该多个视频片段分别对应该多个分段索引指示的文本片段。