基于统一平台和基准的多模态大模型具身问答评估系统

申请号：CN202510372300

申请日期：2025-03-27

公开号：CN120470079A

公开日期：2025-08-12

类型：发明专利

摘要

本发明提供一种基于统一平台和基准的多模态大模型具身问答评估系统，包括可视化具身问答评估平台、基于统一能力框架的具身问答基准以及基于大语言模型的评估策略；可视化具身问答评估平台为基于并发控制且支持多模态数据的统一平台；具身问答基准通过标准化的数据结构和任务设计，实现模型性能的系统化评估；评估策略基于多次独立评分与语义比较机制对答案进行评分。本发明实现了高效的任务调度和稳定的性能表现，能够适应高负载评估场景的需求；实现了不同模型性能的系统化评估，覆盖了具身问答所需的全部核心能力；还基于多次独立评分与语义比较机制对答案进行评分，提升评分的准确性与一致性，克服了传统评估方法在处理复杂答案时的局限性。

技术关键词

评估系统大语言模型基准主动检测方式平台分布式架构注册中心高并发场景多模态队列机制答案节点框架列表数据语义策略物体服务器