文本数据处理方法、装置、计算机设备、可读存储介质和程序产品
申请号:CN202510105544
申请日期:2025-01-22
公开号:CN120012770A
公开日期:2025-05-16
类型:发明专利
摘要
本申请涉及一种文本数据处理方法、装置、计算机设备、可读存储介质和程序产品。所述方法包括:通过目标文本对应的目标语言类型的模型权重对训练好的基础文本模型的权重进行更新,得到目标文本模型;训练好的基础文本模型是通过目标数据集以及目标训练方式进行训练后得到;通过目标文本模型对目标文本进行处理,得到对应目标语言类型的目标文本。通过采用本方法,提升了模型的泛化能力以及在不同语言的适应程度,在确定目标文本的目标语言类型对应的模型权重与预先训练好的文本处理模型合并后进行数据处理,可以在离线状态的情况下快速生成高质量的文本处理结果,保障多语言文本处理的灵活性。
技术关键词
文本数据处理方法
大语言模型
字符
风格
文本数据处理装置
基础
计算机设备
文本处理模型
可读存储介质
指令
计算机程序产品
处理器
多语言
蒸馏
超参数
存储器
模块