视频语义token压缩方法、视频识别方法和电子设备
申请号:CN202511054680
申请日期:2025-07-30
公开号:CN120881297A
公开日期:2025-10-31
类型:发明专利
摘要
本申请提供了一种视频语义token压缩方法、视频识别方法和电子设备,其中,该方法可以包括:对原始视频进行处理,获得待编码视频;其中,所述待编码视频的帧数比所述原始视频的帧数少;对所述待语义编码视频进行语义编码,获得所述待编码视频对应的原始token数据集;对所述原始token数据集进行压缩,获得目标token数据集。通过上述方法,能够将视频以及视频的语义token进行压缩,该目标token数据集后续如果作为大模型的输入的情况下,可以降低大模型语义理解所需的计算量,从而可以实现大模型对长视频能进行高效准确的理解,并降低设备存储压力。
技术关键词
数据
视频识别方法
相邻两帧图像
关键帧
机器可读指令
语义
计算机程序产品
电子设备
自定义信息
分辨率
处理器
可读存储介质
编码策略
对象
存储器
时序