文本生成模型的训练方法及装置

申请号：CN202411639492

申请日期：2024-11-15

公开号：CN119830001A

公开日期：2025-04-15

类型：发明专利

摘要

本发明涉及神经网络技术领域，公开了文本生成模型的训练方法及装置。该方法包括：获取训练语句集；对训练语句进行预处理，得到目标训练语句；将目标训练语句输入初始文本生成模型，基于编码器和解码器依次对目标训练语句进行编码和解码，生成预测文本；基于预测文本和参考文本，构建基础损失函数；根据预设的枢轴点对预测词语在预测语句中的位置进行划分，得到第一目标位置和第二目标位置；基于第一指示函数、第一系数、第二指示函数、第二系数、预测词语的概率分布，确定目标损失函数；根据目标损失函数对初始文本生成模型的编码器和解码器进行训练，直至收敛，得到预先训练好的文本生成模型。

技术关键词

文本生成模型语句词语文本生成方法解码器编码器神经网络技术编解码模块可读存储介质指令枢轴计算机程序产品基础训练装置存储器