一种用于智慧视频生成的多源视频数据智能选择方法及系统

申请号：CN202411107803

申请日期：2024-08-13

公开号：CN118631952B

公开日期：2024-10-25

类型：发明专利

摘要

本发明公开一种用于智慧视频生成的多源视频数据智能选择方法及系统，涉及视频生成技术领域，所述方法包括：采集不同来源的视频素材存储到素材库中；使用多模态大模型提取素材库中各个视频素材的语义特征向量，并使用语义特征向量对视频素材进行标注；在多模态大模型上方添加新的一层，用于选择出各个分镜文本的视频素材；基于多维反馈的损失函数对多模态大模型持续优化；根据用户提供的文案分镜确定虚拟人解说的时间节点，并生成相应的虚拟人解说视频；将选择好的视频素材与虚拟人解说视频融合生成最终的视频。自动从多个视频源中筛选出相关性强的视频片段，避免人工筛选的繁琐和低效，从而提高视频生成的效率。

技术关键词

子模块多模态文本评分机制语音技术视频生成技术存储模块数据语义特征损失函数优化画面音频节点人类定义