大语言模型的训练方法、推理方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型的训练方法、推理方法、装置、设备及存储介质
申请号:CN202410805230
申请日期:2024-06-20
公开号:CN118673325A
公开日期:2024-09-20
类型:发明专利
摘要
本公开提供了大语言模型的训练方法、推理方法、装置、设备及存储介质,涉及数据处理领域,尤其涉及人工智能、大数据等技术领域。具体实现方案为:基于目标样本集合中的至少部分样本数据,对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练,以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块;在继承预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块的训练结果的情况下,基于所述目标样本集合,对预设多专家‑大语言模型进行参数微调,以得到目标多专家‑大语言模型;所述目标多专家‑大语言模型至少包括:目标视觉投影模块,具有视觉语言专家能力和分割专家能力的目标混合专家模块。
技术关键词
投影模块 大语言模型 样本 视觉 前馈神经网络 文本 图像分割 参数 注意力 投影特征 解码模块 编码模块 像素 数据 编码特征 推理方法 分阶段