一种多语言大模型训练方法、装置及相关设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多语言大模型训练方法、装置及相关设备
申请号:CN202411739943
申请日期:2024-11-29
公开号:CN119670847A
公开日期:2025-03-21
类型:发明专利
摘要
本发明公开了一种多语言大模型训练方法、装置及相关设备,所述方法包括:获取平行语料数据,并基于子任务类型对其进行格式转换,得到与多个子任务类型对应的数据格式;将平行语料数据和数据格式输入初始多语言大模型,该模型包括子网络层,子网络层与子任务类型一一对应;计算每个子网络层的损失τ;根据每个子网络层的损失τ,计算全局损失L;利用该L对模型进行更新,得到更新后的多语言大模型。采用本发明可以提高平行语料数据的利用效率,并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。
技术关键词
平行语料数据 多语言 数据格式 模型训练方法 跨语言信息检索 命名实体识别 模型训练装置 可读存储介质 机器翻译 处理器 计算机设备 模块 存储器 算法 参数 矩阵 元素 资源
系统为您推荐了相关专利信息
NFC芯片 防伪溯源方法 动态防伪 区块链平台 产品全生命周期
视网膜图像分层 计算机可执行指令 模型训练方法 训练集 标签
数据格式转换方法 处理器 异构设备 人工智能技术 计算机程序产品
AI模型训练方法 云端 AI系统 电刺激设备 结构模块