多模态文本智能解析系统

申请号：CN202510557795

申请日期：2025-04-29

公开号：CN120408521A

公开日期：2025-08-01

类型：发明专利

摘要

本发明涉及多模态文本解析技术领域，具体涉及多模态文本智能解析系统。该系统包括：本发明提取多模态文本的文本特征和图像特征，将文本特征和图像特征进行矩阵坐标变换，并进行降维处理得到分解向量，计算分解向量的空间距离D，基于空间距离D判断文本特征和图像特征是否满足多模态嵌入语义表示提取要求，得到视觉嵌入式语义表示和文本嵌入式语义表示；对视觉嵌入式语义表示和文本嵌入式语义表示进行聚类处理得到若干个语义表示对，并将语义表示对进行对齐融合处理，得到融合语义表示，对融合语义表示通过图卷积神经网络进行学习，得到学习结果，能够通过融合文本信息与图像信息，提升对复杂文档或多媒体内容的理解与分析能力。

技术关键词

智能解析系统融合语义文本多模态协方差矩阵视觉节点线性变换矩阵数据特征值图像特征提取聚类坐标解析技术对象嵌入方法元素