摘要
本申请公开了一种制药行业大模型微调方法、装置、设备及存储介质,涉及机器学习技术领域,包括:对若干原始制药专利文档进行文档数据格式的转化以得到目标文档格式的制药数据文档,并对制药数据文档中的图像数据进行多模态特征提取操作以得到待处理图像数据;利用预设制药靶点数据库将待处理图像数据和制药数据文档中的待处理文本数据进行多维度数据融合以得到目标训练数据;从若干制药行业领域的预训练模型中确定一个目标预训练模型,并利用训练数据和预设微调方法对目标预训练模型进行模型微调以得到目标制药行业大模型。这样一来,通过使用多维度数据融合技术确定得到目标训练数据对模型进行微调,提高了模型对专业术语和概念的识别能力。