视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品
申请号:CN202411933160
申请日期:2024-12-26
公开号:CN119357340B
公开日期:2025-03-25
类型:发明专利
摘要
本申请涉及视频理解技术领域,特别是涉及一种视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取长视频数据以及视频理解问题;将长视频数据分割为多个短视频片段,采用短期视觉字幕生成器基于每个短视频片段的图像信息,生成对应的描述文本;按照每个短视频片段对应的时间顺序依次拼接描述文本得到目标描述文本;将目标描述文本与视频理解问题输入至大语言模型,得到大语言模型基于目标描述文本生成的与视频理解问题对应的答案。采用本方法能够解决现有的长视频理解模型推理训练成本高且周期长的问题,起到简化长视频理解的复杂性,提高长视频理解中的问答生成效率以及准确率的技术效果。
技术关键词
文本
短视频
大语言模型
字幕
样本
答案生成方法
图像解码器
注意力
计算机程序产品
机制
视觉
计算机设备
可读存储介质
视频帧
数据