一种多模态掩码视频描述模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态掩码视频描述模型
申请号:CN202510723186
申请日期:2025-05-30
公开号:CN120751161A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块;本发明的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态,本发明通过引入掩码机制来随机屏蔽掉输入的视频图像标记块,将它和音频图谱送入统一的多模态编码器用来增强图像的语义信息。
技术关键词
补丁 多模态 编码模块 标记 视频 语义 解码模块 归一化模块 多层感知器 注意力 序列 自然语言 掩码技术 融合策略 音频特征 语音特征 图像块