视频理解大模型优化与评估方法、系统、设备及存储介质
申请号:CN202510349413
申请日期:2025-03-24
公开号:CN119888581B
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了一种视频理解大模型优化与评估方法、系统、设备及存储介质,它们还是一一对应的方案,方案中:设计了新的连接器结构以提升全局时序理解能力,其包含时空下采样器,局部双向Mamba结构以及线性层组成。时空下采样器能够降低令牌存储开销;同时,局部双向Mamba结构,一方面弥补了感受野受限的问题,另一方面其能够同时建模帧内特征和帧间特征;此外,该连接器的训练是低成本的,并且使用了三阶段的渐进式训练策略,可以对抗灾难性遗忘;并且,还构建了半自动化数据生成管道并基于此管道提出了全局时序理解数据,以弥补现有基准领域在该能力上的评估空缺。
技术关键词
视频
生成管道
线索
线性单元
时序
序列
采样器
扫描模块
状态空间模型
数据
文本
残差结构
主题
语义
阶段
训练集
处理器
指令
评估系统