一种模型训练方法以及相关设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型训练方法以及相关设备
申请号:CN202510492694
申请日期:2025-04-18
公开号:CN120012835A
公开日期:2025-05-16
类型:发明专利
摘要
本申请实施例公开了一种模型训练方法,该方法中,可以根据第一模型中的预设注意力模块的模型参数与第二模型中的MLA模块中的模型参数的相关性,将预设注意力模块中的模型权重变换为MLA模块的初始化的模型权重,以将预设注意力模块中的知识迁移至初始化后的MLA模块中,为初始化后的第二模型提供较好的知识基础,然后对MLA模块进行微调等小规模的训练即可获得性能较好的训练后的第二模型,而无需对第二模型从零开始执行完整的全流程训练过程,大大提升对第二模型的训练效率。
技术关键词
注意力 模型训练方法 教师 学生 模型训练装置 处理器 可读存储介质 计算机程序产品 接口模块 集群 小规模 文本 指令 存储器 图像 参数 基础