基于深度学习的视频内容语义理解与文本描述生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于深度学习的视频内容语义理解与文本描述生成方法
申请号:CN202510809128
申请日期:2025-06-17
公开号:CN120747806A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了基于深度学习的视频内容语义理解与文本描述生成方法,涉及多媒体信息处理技术领域,本发明通过CLIP模型计算文本与视频帧的语义相似度,选取相关关键帧并聚合特征;分别提取音频、视觉和语义特征;利用自注意力对齐不同模态特征,LSTM统一维度后拼接融合;在视频级、帧级和通道级计算注意力权重,强化关键信息表达;Swin Transformer编码融合特征,LSTM逐步解码生成自然语言描述;构建文本‑视频索引库,基于语义相似度实现快速检索。本发明通过深度学习模型端到端学习视频特征与自然语言的映射关系,可摆脱对固定模板的依赖,生成句式多样、逻辑连贯的语义描述。
技术关键词
视频内容语义理解 文本 生成方法 语义特征 视频关键帧提取 融合特征 视觉特征 多模态特征融合 生成自然语言 注意力机制 多媒体信息处理技术 语义标签 语义向量 视频帧 多层感知机