摘要
本发明提供一种基于统一平台和基准的多模态大模型具身问答评估系统,包括可视化具身问答评估平台、基于统一能力框架的具身问答基准以及基于大语言模型的评估策略;可视化具身问答评估平台为基于并发控制且支持多模态数据的统一平台;具身问答基准通过标准化的数据结构和任务设计,实现模型性能的系统化评估;评估策略基于多次独立评分与语义比较机制对答案进行评分。本发明实现了高效的任务调度和稳定的性能表现,能够适应高负载评估场景的需求;实现了不同模型性能的系统化评估,覆盖了具身问答所需的全部核心能力;还基于多次独立评分与语义比较机制对答案进行评分,提升评分的准确性与一致性,克服了传统评估方法在处理复杂答案时的局限性。