一种基于多模态大模型的运动视频理解方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的运动视频理解方法及装置
申请号:CN202511374631
申请日期:2025-09-25
公开号:CN120953895A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的运动视频理解方法及装置,所述方法包括:(1)对输入的运动视频进行均匀采样,提取K个视频帧,并利用视觉编码器提取各视频帧的视觉特征;(2)通过多层感知器将视觉特征映射至大语言模型的隐空间维度,生成映射后的视觉特征;(3)将映射后的视觉特征与用户查询拼接为综合提示,输入大语言模型生成文本响应;(4)采用多阶段训练策略训练多模态大模型,包括视觉语言对齐预训练、视频指令遵循微调训练和体育知识微调训练。本发明能够有效提取视频中的关键视觉信息,从而提升对运动视频中动态复杂场景的理解能力,充分利用视频帧之间的时间依赖关系,以使运动视频理解的准确性和效率得到了显著提升。
技术关键词
视频理解方法 多模态 多层感知器 大语言模型 多阶段 运动 视频帧 关键视觉信息 非暂态计算机可读存储介质 令牌 视觉特征提取 文本 体育 处理器 注意力机制 索引 策略