基于长文本的语言模型训练方法、设备、介质及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于长文本的语言模型训练方法、设备、介质及产品
申请号:CN202511160095
申请日期:2025-08-19
公开号:CN121030337A
公开日期:2025-11-28
类型:发明专利
摘要
本申请公开了基于长文本的语言模型训练方法、设备、介质及产品,属于数据处理领域。本申请能够对获取的原始训练样本进行分类处理得到第一训练样本,可以有效筛选出具有高质量长文依赖性的训练数据,提高模型对长文本中依赖关系的学习效率;基于预设策略将第一训练样本与多分布语料库中的数据进行混合,得到第二训练样本,在该过程中将不同长度的长文数据与短文数据按特定比例混合,构建多级长度的训练数据集,可以在保持短文本处理能力的同时提升长文本理解能力;将第二训练样本输入待训练语言模型进行多级训练,逐步提高模型处理长文本的能力,同时减少对大量训练数据和高性能GPU资源的依赖,目标语言模型具备支持长度文本理解的能力。
技术关键词
语言模型训练方法 训练语言模型 数据 计算机程序指令 滑动窗口机制 文本理解 策略 计算机程序产品 处理器 电子设备 介质 高性能 字符 语义 存储器 编码 动态