基于深度学习的视频内容语义理解与文本描述生成方法

申请号：CN202510809128

申请日期：2025-06-17

公开号：CN120747806A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了基于深度学习的视频内容语义理解与文本描述生成方法，涉及多媒体信息处理技术领域，本发明通过CLIP模型计算文本与视频帧的语义相似度，选取相关关键帧并聚合特征；分别提取音频、视觉和语义特征；利用自注意力对齐不同模态特征，LSTM统一维度后拼接融合；在视频级、帧级和通道级计算注意力权重，强化关键信息表达；Swin Transformer编码融合特征，LSTM逐步解码生成自然语言描述；构建文本‑视频索引库，基于语义相似度实现快速检索。本发明通过深度学习模型端到端学习视频特征与自然语言的映射关系，可摆脱对固定模板的依赖，生成句式多样、逻辑连贯的语义描述。

技术关键词

视频内容语义理解文本生成方法语义特征视频关键帧提取融合特征视觉特征多模态特征融合生成自然语言注意力机制多媒体信息处理技术语义标签语义向量视频帧多层感知机