基于文本和镜头相似的自动化视频剪辑方法、装置及终端

申请号：CN202510709855

申请日期：2025-05-29

公开号：CN120499445A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了基于文本和镜头相似的自动化视频剪辑方法、装置及终端，属于人工智能技术领域。该方法包括：基于对指定音乐的音乐区间识别结果，确定混剪视频的结束时间；挑选主体标签为风景的镜头作为片头镜头；并基于主体识别结果、行为识别结果和运动计算结果，与其他镜头进行相似度分析，并基于深度学习模型计算镜头间的视觉相似度，识别重复或冗余画面，挑选高能镜头作为片中高燃镜头；并基于挑选的结束词的对应片段，检索并截取对应镜头作为片尾镜头；将所述指定音乐、及片头、片中高燃镜头和片尾镜头进行音视频混剪组装。本发明通过融合多模态特征分析与智能剪辑逻辑生成，实现高效、高质量的视频自动化生产。

技术关键词

镜头视频剪辑方法音乐节奏识别自动语音识别技术深度学习模型文本语义结构大语言模型音视频分片标签字幕视频剪辑装置画面运动冗余主题视觉