基于多语言模型微调的马来语-汉语语料抽取方法、系统

申请号：CN202510861143

申请日期：2025-06-25

公开号：CN120874820A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及基于多语言模型微调的马来语‑汉语语料抽取方法、系统，属于自然语言处理技术领域。本发明包括步骤：对马来语‑汉语语料进行预处理：对马来语‑汉语伪平行数据中的重复、格式有误以及乱码进行预处理；噪声分析：根据不同的噪声类型对应的特性采取相应的数据筛选策略以过滤噪声；基于跨语言句向量对齐度的语料质量量化，构建了适用于分类任务的正负例数据集；马来语‑汉语数据集的数据抽取：通过构建好的正负例数据集对LaBSE模型或基于Bert的XLM‑Roberta模型进行微调，使用微调后的模型对待处理数据进行马来语‑汉语语料抽取。本发明能筛选出高质量的数据，获得了质量较高的句对。

技术关键词

语料抽取方法多语言目标语言句子字符串匹配算法非暂态计算机可读存储介质训练语言模型处理器抽取系统计算机程序产品样本数据验证策略哈希表标签自然语言工具包无噪声格式