摘要
本发明涉及一种面向数字孪生的工业大语言模型语料制作方法,包括以下步骤:首先面向数字孪生系统,从钢铁工业数据库中提取生产、设备状态、故障记录等多维数据。然后利用大语言模型代理进行数据处理和关联。接着将文档分割成多个较小的文本块,并对分块后的数据利用BGE嵌入模型进行向量化的转化。最后设计提示词prompt引导大语言模型代理对分块后的数据生成Alpaca格式的问答对。该方法解决了工业领域大量数据中难以提取有用信息,以辅助决策和优化生产过程的问题。通过构建专用的工业大语言模型微调数据集,提升了大语言模型在钢铁行业中的应用效果。不仅为后续SFT(监督微调)过程提供有效的支持,同时进一步推动了钢铁领域的自动化发展。