摘要
本发明涉及视频处理技术领域,具体涉及一种基于大模型的视频融合方法及系统;方法包括:获取视频流进行画面分割,针对每个分割画面识别运动目标,预测运动目标轨迹,并匹配最小像素区域,确定关键帧;提取特征,聚焦关键区域中的识别目标;生成静态场景,对齐识别目标及场景,获取动态遮挡关系,输出融合视频数据;系统包括:动态画面划分模块、多模态特征提取模块、动态融合重建模块;通过针对每个分割画面识别运动目标,预测运动目标轨迹,匹配最小像素区域,确定关键帧,并聚焦关键区域中的识别目标,对齐识别目标及场景,获取动态遮挡关系,输出融合视频数据;实现了处理运动目标的轨迹变化,避免融合结果出现重影及错位。