摘要
本发明公开了一种基于大模型的断言错误归因能力评估方法及系统,包括:在真实缺陷报告中收集原始数据,构建包含多难度层级的混淆测试数据集;预定义三种测试场景,执行自动化测试过程,解析日志并记录每种场景下对应的测试报错信息:提取焦点方法代码的上下文信息,利用推理式大模型进行语义增强;将测试报错信息与经过语义增强的代码上下文信息进行整合,构造生成用于能力评估的输入提示词;大模型接受处理后,输出其对断言错误的推断结论;通过比对大语言模型输出的结果与预定义的标准答案之间的一致程度,计算出用于衡量大模型断言错误归因能力的核心评估指标。利用本发明,能够客观、准确地评估大模型在面对真实缺陷时的断言错误归因能力。