一种基于大模型的错误类型感知的越南语语法纠错语料构建方法
申请号:CN202510525046
申请日期:2025-04-24
公开号:CN120449869A
公开日期:2025-08-08
类型:发明专利
摘要
本发明涉及一种基于大模型的错误类型感知的越南语语法纠错语料构建方法,属自然语言处理领域。本发明首先运用语音识别模型模拟真实场景中的越南语语法错误,生成初步的纠错数据集,随后通过深度分析该数据集中典型错误的分布规律与语法结构特征,针对性设计出融合错误类型特征的链式思维提示(CoT)机制,引导大型语言模型(LLM)批量生成包含预定语法错误的合成语句;接着,为增强语料质量,同步实施网络爬虫采集原生越南语文本,经过多层过滤与清洗构建纯净单语语料库;最后,生成的合成数据需要经过严格的验证和处理,以确保其错误类型与预设目标一致,并通过两阶段微调的方式强化预训练模型范式和大模型范式从而有效提升语法纠错模型的泛化能力,以解决越南语语法纠错语料匮乏的问题。
技术关键词
语料构建方法
纠错
大语言模型
数据
预训练模型
非暂态计算机可读存储介质
标注工具
网络爬虫技术
语音识别模型
语句
文本
两阶段
处理器
样本
基础
语法结构
计算机程序产品
构建系统
统计特征