摘要
本发明公开了一种基于多模态分析的短视频智能剪辑方法及系统,涉及视频剪辑技术领域。用于提升剪辑效率与视觉体验,对目标短视频流提取人物唇部运动特征、商品视觉显著性特征及语音情感强度值,形成多模态时序数据;随后,将语音流转录并提取产品关键词时间戳,同时结合视觉显著性峰值,通过动态时间规整计算对齐度,并结合情感强度值加权评估,生成初步剪辑点集合;构建基于深度强化学习的剪辑决策优化模型,将多模态特征作为状态输入,以联合奖励函数调整剪辑点保留概率并选择最优转场方式;分析剪辑点前后唇部运动与语音同步误差及过渡段情感与视觉连续性,对不连续区域进行平滑处理,输出剪辑成品,实现了精准化的短视频智能剪辑。