一种视频理解的方法、装置及计算机程序产品
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种视频理解的方法、装置及计算机程序产品
申请号:
CN202511093348
申请日期:
2025-08-06
公开号:
CN120598060B
公开日期:
2025-12-09
类型:
发明专利
摘要
本发明实施例提供一种视频理解的方法、装置及计算机程序产品,属于视频和大数据领域,该方法包括:获取目标视频的描述文本、查询文本令牌及视觉令牌;对所述描述文本进行LLM推理、检索及区域扩展得到候选时间区域;对所述候选时间区域进行密集采样、检索和区域合并得到连续时间区域;根据查询文本令牌及视觉令牌确定注意力矩阵;根据所述注意力矩阵对所述连续时间区域进行语义相关度评估、剪枝和位置编码重构得到时空特征;根据所述时空特征生成所述目标视频的回答。该方法实现了高效高精度的长视频理解。
技术关键词
令牌
注意力
语义相关度
文本
视觉
矩阵
计算机程序产品
重构
编码
答案
高效高精度
序列
视频帧
大语言模型
生成事件
连续性
模块
层级
解码