基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质
申请号:CN202511236767
申请日期:2025-09-01
公开号:CN120744143A
公开日期:2025-10-03
类型:发明专利
摘要
本申请实施例提供了一种基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质,所述方法包括:将接收的每种数据分别输入对应的预设编码器中,对输出的至少两种数据特征进行分组,将每个数据特征组输入预设粗对齐模块,确定每个数据特征组对应的匹配得分,并筛选匹配得分超过预设阈值的数据特征组;构建图注意力网络,将筛选的每个数据特征组输入图注意力网络,对输出的第一融合特征进行迭代;将迭代后特征输入预设语义修正模块,将输出的对齐后特征输入预设多模态注意力模型,生成所有特征组的第二融合特征,通过粗对齐模块、图注意力网络和语义修正模块三阶段动态对齐机制解决了现有跨模态语义理解中语义信息损失严重的问题。
技术关键词
多模态注意力模型 文本编码器 图像编码器 对齐模块 融合特征 语义理解方法 音频编码器 视频编码器 网络 视频数据特征 计算机设备 表达式 多层感知机
系统为您推荐了相关专利信息
高层语义特征 前馈神经网络 扫描模块 生成多尺度 编码器
涂层 视觉 微调方法 图像分割方法 图像编码器
进化算法 融合特征提取 时序特征 动态 数据标签技术
图像生成神经网络 超分辨率方法 文本 小波域 平稳小波变换
边缘结构信息 边缘检测模型 空间注意力模型 融合特征 图像处理方法