摘要
本发明公开了基于大模型的长视频处理方法及装置、电子设备和介质,本发明涉及视频处理技术领域。该装置包括片段分割模块、特征提取模块、缓存机制模块、模型处理模块;通过结构化设计实现长视频高效精准处理;采用SSIM基于内容分割长视频为语义连贯片段,避免冗余帧无效处理,降低大模型单次处理序列长度,减少计算消耗;人物姿态特征通过骨骼关键点坐标平均值浓缩动作趋势,场景语义特征基于语义区域占比平均值反映场景属性,在减冗余的同时最大化保留关键语义;跨片段动态注意力缓存机制实时更新前序特征,通过关联度计算构建融入历史上下文的新特征,解决片段间信息断层;融合特征输入大模型,实现片段细节与跨片段关联协同处理。