一种多模态多特征端到端密集视频描述方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态多特征端到端密集视频描述方法及系统
申请号:CN202510196090
申请日期:2025-02-21
公开号:CN120088704A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种多模态多特征端到端密集视频描述方法及系统。该方法包括步骤:提取视频的关键帧;从关键帧中提取视觉区域特征和视觉网格特征,将关键帧输入到ViFi‑CLIP模型提取CLIP特征,分别将视觉区域特征和视觉网格特征映射到CLIP特征,将映射得到的两个新的特征进行融合,获得视觉特征;提取音频特征和文本特征;分别将视觉特征、音频特征和文本特征输入到编码解码模块进行编码和解码后再进行特征融合,获得融合特征;将融合特征分别输入事件边界预测模块、文本描述预测模块和事件计数器,获得视频中的事件边界、每个事件对应的自然语言描述以及事件数量。本发明能提升视频内容理解的深度和描述生成的质量。
技术关键词
关键帧 网格特征 多模态特征融合 视频 视觉特征提取 注意力 融合特征 音频特征提取 事件计数器 解码模块 特征提取模块 自动语音识别技术 文本段落