摘要
本申请提供一种大语言模型评估集自动生成方法、装置、设备和介质:采用检索增强生成的方式搜索与关键词相关的专业文档,自动从检索到的内容中分析得出关键问题并给出答案,无需人工输入原始问题作为启动条件,减少人工成本,降低生成难度,同时能够利用调度领域大规模无标注语料,提升对专业领域知识考察的覆盖度。在问题不合适时能够批量生成新的问题数据而非改写原始问题,进一步提升问题多样性。问题数据的生成过程以关键词形式的知识点为基础,保证题目主题准确且聚焦,避免大语言模型生成的随机性。在输入关键词后,能够以自动化手段批量生成评估集,为调度大模型训练和微调过程中的能力评估提供基准,提升模型开发测试效率。