基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质
申请号:CN202511236767
申请日期:2025-09-01
公开号:CN120744143A
公开日期:2025-10-03
类型:发明专利
摘要
本申请实施例提供了一种基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质,所述方法包括:将接收的每种数据分别输入对应的预设编码器中,对输出的至少两种数据特征进行分组,将每个数据特征组输入预设粗对齐模块,确定每个数据特征组对应的匹配得分,并筛选匹配得分超过预设阈值的数据特征组;构建图注意力网络,将筛选的每个数据特征组输入图注意力网络,对输出的第一融合特征进行迭代;将迭代后特征输入预设语义修正模块,将输出的对齐后特征输入预设多模态注意力模型,生成所有特征组的第二融合特征,通过粗对齐模块、图注意力网络和语义修正模块三阶段动态对齐机制解决了现有跨模态语义理解中语义信息损失严重的问题。
技术关键词
多模态注意力模型
文本编码器
图像编码器
对齐模块
融合特征
语义理解方法
音频编码器
视频编码器
网络
视频数据特征
计算机设备
表达式
多层感知机