一种基于视频问答的短视频标注方法

申请号：CN202411038142

申请日期：2024-07-31

公开号：CN118968383A

公开日期：2024-11-15

类型：发明专利

摘要

本发明涉及视频问答技术领域，具体为一种基于视频问答的短视频标注方法，包括如下步骤：S1、从多个短视频平台按照不同视频类型，收集短视频素材，针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率；S2、针对每个视频帧提取视觉对象和场景文本的高维特征表示，利用多模态变压器提取不同模态的特征向量序列；S3、通过预训练的深度学习模型，识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化。本发明提供了一种基于视频问答的短视频标注方法，通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤，实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界，具有广泛的应用前景。

技术关键词

视频标注方法变压器模型多模态文本视频帧前馈神经网络对象检测模型序列短视频频率自然语言生成技术视觉深度学习模型光学字符识别技术场景类别物体

系统为您推荐了相关专利信息

图片显示方法及装置、存储介质、平台

图片显示方法人体轮廓线视觉特征图像分类模型对象

基于语音交互的运维系统控制方法、系统、设备及介质

系统控制方法实体文本运维系统词语

对视频素材进行分镜的系统

视频素材采集设备场景动态时间规整识别模块语义特征

受记忆检索和跨模态交互启发的对话情绪识别方法及装置

情绪识别方法语句记忆情感分类器情感类别

一种基于模型解耦的视觉语言推理方法、装置和存储介质

推理方法视觉文本模块框架