一种基于大模型的错误类型感知的越南语语法纠错语料构建方法

申请号：CN202510525046

申请日期：2025-04-24

公开号：CN120449869A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及一种基于大模型的错误类型感知的越南语语法纠错语料构建方法，属自然语言处理领域。本发明首先运用语音识别模型模拟真实场景中的越南语语法错误，生成初步的纠错数据集，随后通过深度分析该数据集中典型错误的分布规律与语法结构特征，针对性设计出融合错误类型特征的链式思维提示(CoT)机制，引导大型语言模型(LLM)批量生成包含预定语法错误的合成语句；接着，为增强语料质量，同步实施网络爬虫采集原生越南语文本，经过多层过滤与清洗构建纯净单语语料库；最后，生成的合成数据需要经过严格的验证和处理，以确保其错误类型与预设目标一致，并通过两阶段微调的方式强化预训练模型范式和大模型范式从而有效提升语法纠错模型的泛化能力，以解决越南语语法纠错语料匮乏的问题。

技术关键词

语料构建方法纠错大语言模型数据预训练模型非暂态计算机可读存储介质标注工具网络爬虫技术语音识别模型语句文本两阶段处理器样本基础语法结构计算机程序产品构建系统统计特征