跨语言文本融合智能对齐方法与系统

申请号：CN202510908768

申请日期：2025-07-02

公开号：CN120764481A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及跨语言信息处理技术领域，提供一种跨语言文本融合智能对齐方法和系统，通过多编码类型文本的预处理与标签识别，结合多语言预训练模型的深度语义特征提取及标注，解析文本语义与格式信息，构建的分层对齐模型，以Transformer为核心，通过多头注意力机制强化跨语言语义关联，并标签权重分配与条件约束实现字符级、段落级的格式协同，在多语言混合排版场景下，格式对齐准确率得到明显提升，模型对结构化信息的解析能力可延伸至文本与图像、表格的布局关系处理，使多模态融合场景下的综合对齐效率得到显著提高。保障文本与标签融合的准确性，避免乱码与标签混淆问题，实现从语义到格式、单模态到多模态、高精度跨语言文本对齐。

技术关键词

对齐方法预训练语言模型特征提取模型多语言跨语言信息处理技术序列标注模型字符格式带标签机器可读存储介质文本分类模型多头注意力机制语义特征提取编码融合场景