一种基于大模型智能体多轮推理的长视频问答方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于大模型智能体多轮推理的长视频问答方法
申请号:
CN202410943597
申请日期:
2024-07-15
公开号:
CN119202149A
公开日期:
2024-12-27
类型:
发明专利
摘要
本发明涉及一种基于大模型智能体多轮推理的长视频问答方法,根据问题和选项确定初始的关键帧序列,并生成选项的置信度分数,置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式,和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估,决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同,有效提高了视频问答的准确率和质量。
技术关键词
视频问答方法
关键帧
查询特征
大语言模型
视频帧信息
视频帧特征
模块
图像编码器
生成答案
文本
序列
视觉特征
图片
多模态
时序
网格