摘要
本发明公开了基于深度学习的视频内容语义理解与文本描述生成方法,涉及多媒体信息处理技术领域,本发明通过CLIP模型计算文本与视频帧的语义相似度,选取相关关键帧并聚合特征;分别提取音频、视觉和语义特征;利用自注意力对齐不同模态特征,LSTM统一维度后拼接融合;在视频级、帧级和通道级计算注意力权重,强化关键信息表达;Swin Transformer编码融合特征,LSTM逐步解码生成自然语言描述;构建文本‑视频索引库,基于语义相似度实现快速检索。本发明通过深度学习模型端到端学习视频特征与自然语言的映射关系,可摆脱对固定模板的依赖,生成句式多样、逻辑连贯的语义描述。