基于多模态大模型的细粒度体操视频理解方法与系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的细粒度体操视频理解方法与系统
申请号:CN202510999663
申请日期:2025-07-21
公开号:CN120976819A
公开日期:2025-11-18
类型:发明专利
摘要
基于多模态大模型的细粒度体操视频理解方法与系统,其方法包括:首先本发明通过结合决策树、题库模板与大模型自动描述的混合标注流程,构建了针对体操领域的专业问答数据集;然后,在模型处理流程中引入了基于帧间差异分析的自适应帧采样模块,用以智能捕捉体操运动中的关键动作,并采用双流视觉编码器及后续的视觉令牌压缩模块对采样后的视觉特征进行高效提取与精炼;在此基础上,利用低秩适应技术对模型进行参数高效微调。本发明能够系统性地为大模型注入体操领域的专业知识并优化其对复杂动态的感知能力,为专业体操视频的细粒度理解和分析提供了精准、高效的技术方案。
技术关键词
视频理解方法 令牌 多模态 多层感知机 标注方法 分类决策树 序列 语言模块 模板 大语言模型 分段 采样方法 视觉特征提取 文本 线性 采样模块 生成提示词