一种视频理解的方法、装置及计算机程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种视频理解的方法、装置及计算机程序产品
申请号:CN202511093348
申请日期:2025-08-06
公开号:CN120598060B
公开日期:2025-12-09
类型:发明专利
摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌 注意力 语义相关度 文本 视觉 矩阵 计算机程序产品 重构 编码 答案 高效高精度 序列 视频帧 大语言模型 生成事件 连续性 模块 层级 解码