摘要
基于多模态大模型的细粒度体操视频理解方法与系统,其方法包括:首先本发明通过结合决策树、题库模板与大模型自动描述的混合标注流程,构建了针对体操领域的专业问答数据集;然后,在模型处理流程中引入了基于帧间差异分析的自适应帧采样模块,用以智能捕捉体操运动中的关键动作,并采用双流视觉编码器及后续的视觉令牌压缩模块对采样后的视觉特征进行高效提取与精炼;在此基础上,利用低秩适应技术对模型进行参数高效微调。本发明能够系统性地为大模型注入体操领域的专业知识并优化其对复杂动态的感知能力,为专业体操视频的细粒度理解和分析提供了精准、高效的技术方案。