基于文本和镜头相似的自动化视频剪辑方法、装置及终端

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于文本和镜头相似的自动化视频剪辑方法、装置及终端
申请号:CN202510709855
申请日期:2025-05-29
公开号:CN120499445A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了基于文本和镜头相似的自动化视频剪辑方法、装置及终端,属于人工智能技术领域。该方法包括:基于对指定音乐的音乐区间识别结果,确定混剪视频的结束时间;挑选主体标签为风景的镜头作为片头镜头;并基于主体识别结果、行为识别结果和运动计算结果,与其他镜头进行相似度分析,并基于深度学习模型计算镜头间的视觉相似度,识别重复或冗余画面,挑选高能镜头作为片中高燃镜头;并基于挑选的结束词的对应片段,检索并截取对应镜头作为片尾镜头;将所述指定音乐、及片头、片中高燃镜头和片尾镜头进行音视频混剪组装。本发明通过融合多模态特征分析与智能剪辑逻辑生成,实现高效、高质量的视频自动化生产。
技术关键词
镜头 视频剪辑方法 音乐节奏识别 自动语音识别技术 深度学习模型 文本 语义结构 大语言模型 音视频 分片 标签 字幕 视频剪辑装置 画面 运动 冗余 主题 视觉