一种面向数字孪生的工业大语言模型语料制作方法

申请号：CN202510248344

申请日期：2025-03-04

公开号：CN120297405A

公开日期：2025-07-11

类型：发明专利

摘要

本发明涉及一种面向数字孪生的工业大语言模型语料制作方法，包括以下步骤：首先面向数字孪生系统，从钢铁工业数据库中提取生产、设备状态、故障记录等多维数据。然后利用大语言模型代理进行数据处理和关联。接着将文档分割成多个较小的文本块，并对分块后的数据利用BGE嵌入模型进行向量化的转化。最后设计提示词prompt引导大语言模型代理对分块后的数据生成Alpaca格式的问答对。该方法解决了工业领域大量数据中难以提取有用信息，以辅助决策和优化生产过程的问题。通过构建专用的工业大语言模型微调数据集，提升了大语言模型在钢铁行业中的应用效果。不仅为后续SFT(监督微调)过程提供有效的支持，同时进一步推动了钢铁领域的自动化发展。

技术关键词

大语言模型数字孪生系统文本虚拟设备分块工业数据设备状态信息钢铁物理设备注意力机制格式自然语言索引连续性场景序列答案