大模型的模型能力分类评估方法、装置、设备及介质

申请号：CN202510708240

申请日期：2025-05-29

公开号：CN120408117A

公开日期：2025-08-01

类型：发明专利

摘要

本申请公开了大模型的模型能力分类评估方法、装置、设备及介质，涉及人工智能技术领域，包括：确定待评估大模型的任务评估类型，基于子能力评估项和具体测试场景生成的对应测试任务数据，并对测试任务数据进行前置格式化处理，以得到格式化处理后的目标测试任务数据；将目标测试任务数据输入至待评估大模型，调用模型参数加载功能，以便待评估大模型加载相应的模型参数后对目标测试任务数据进行任务处理，得到测试结果指标；对测试结果指标执行人工评估，得到相应的模型能力评估结果，以利用模型能力评估结果优化待评估大模型。实现不同场景不同测试任务下的大模型的模型能力准确评估。

技术关键词

分类评估方法非标准格式化测试场景指标标签参数启发式规则多模态存储计算机程序多轮对话人工智能技术数据处理模块意图识别字符评估装置文本多语言