视频语义token压缩方法、视频识别方法和电子设备

申请号：CN202511054680

申请日期：2025-07-30

公开号：CN120881297A

公开日期：2025-10-31

类型：发明专利

摘要

本申请提供了一种视频语义token压缩方法、视频识别方法和电子设备，其中，该方法可以包括：对原始视频进行处理，获得待编码视频；其中，所述待编码视频的帧数比所述原始视频的帧数少；对所述待语义编码视频进行语义编码，获得所述待编码视频对应的原始token数据集；对所述原始token数据集进行压缩，获得目标token数据集。通过上述方法，能够将视频以及视频的语义token进行压缩，该目标token数据集后续如果作为大模型的输入的情况下，可以降低大模型语义理解所需的计算量，从而可以实现大模型对长视频能进行高效准确的理解，并降低设备存储压力。

技术关键词

数据视频识别方法相邻两帧图像关键帧机器可读指令语义计算机程序产品电子设备自定义信息分辨率处理器可读存储介质编码策略对象存储器时序