LLM-RAG样本的构建方法、设备及存储介质

申请号：CN202510855718

申请日期：2025-06-24

公开号：CN120705581A

公开日期：2025-09-26

类型：发明专利

摘要

本申请公开LLM‑RAG样本的构建方法、设备及存储介质，该方法包括：确定与输入内容相匹配的多个泛化问题和相应的参考答案；针对各个泛化问题，将泛化问题在输入文档中进行信息检索，以确定相应的召回背景知识；根据各个泛化问题与相应的参考答案和召回背景知识，生成相应的关于LLM‑RAG的各个结构化样本。由此，通过以输入文档为基础，构建覆盖多种语义表达形式的泛化问题及对应参考答案，并引入检索召回机制从输入文档获取关联背景知识，从而生成内容完整、语义一致的结构化样本，显著提升了LLM‑RAG训练数据的质量与适用性。

技术关键词

样本大语言模型信息检索语义计算机程序产品基础处理器通信指令存储器电子设备答案专业逻辑数据机制