基于多模态大模型的细粒度体操视频理解方法与系统

申请号：CN202510999663

申请日期：2025-07-21

公开号：CN120976819A

公开日期：2025-11-18

类型：发明专利

摘要

基于多模态大模型的细粒度体操视频理解方法与系统，其方法包括：首先本发明通过结合决策树、题库模板与大模型自动描述的混合标注流程，构建了针对体操领域的专业问答数据集；然后，在模型处理流程中引入了基于帧间差异分析的自适应帧采样模块，用以智能捕捉体操运动中的关键动作，并采用双流视觉编码器及后续的视觉令牌压缩模块对采样后的视觉特征进行高效提取与精炼；在此基础上，利用低秩适应技术对模型进行参数高效微调。本发明能够系统性地为大模型注入体操领域的专业知识并优化其对复杂动态的感知能力，为专业体操视频的细粒度理解和分析提供了精准、高效的技术方案。

技术关键词

视频理解方法令牌多模态多层感知机标注方法分类决策树序列语言模块模板大语言模型分段采样方法视觉特征提取文本线性采样模块生成提示词