基于多模态大模型协同的视频剪辑方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型协同的视频剪辑方法及系统
申请号:CN202511287057
申请日期:2025-09-10
公开号:CN120786154B
公开日期:2025-12-26
类型:发明专利
摘要
本发明公开了基于多模态大模型协同的视频剪辑方法,属于视频处理技术领域。具体包括以下步骤:S1、视频预处理与智能分块:对原始视频进行预处理,将视频切割为小块,确保每个小块结尾为完整语句,输出各分块的时间戳、音频文本片段并以结构化数据存储;S2、多模态场景分隔与验证:将各分块即音频文本片段及其时间戳输入语言大模型,按规则初分场景再构建精灵图,输入视觉大模型验证商品是否切换,最终输出场景时间、标题及简介。通过“音频特征提取+语义完整性判断+量化分块规则”的组合策略,解决了传统视频分块中易出现的语句截断、时间戳混乱问题。具体而言,结合声波强度、语音停顿特征及语言大模型识别的语句边界。
技术关键词
视频剪辑方法 多模态 语句 关键词 分块 文本 场景 验证商品 视觉 音频特征提取 画面 视频剪辑系统 轨道 数据存储 语音识别模型 匹配模块 网格 输出模块