AI资讯新闻榜单内容搜索-评测基准

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 评测基准

医疗AI质变时刻来临！国产医疗AI率先突破，临床诊疗能力问鼎全球

医疗AI质变时刻来临！国产医疗AI率先突破，临床诊疗能力问鼎全球

医疗AI质变时刻来临！国产医疗AI率先突破，临床诊疗能力问鼎全球

“我最近喉咙像刀割一样痛，还伴随鼻塞，但没有咳嗽……这是染上流感，还是又中招了？”

来自主题: AI资讯

10037 点击 2025-11-12 16:22

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

8034 点击 2025-10-29 09:53

AI点外卖哪家强，美团LongCat团队做了个全面评测

AI点外卖哪家强，美团LongCat团队做了个全面评测

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8796 点击 2025-10-20 10:13

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

你有没有想过，AI 不仅能记住过去的一切，还能预见未知的未来？

来自主题: AI技术研报

9373 点击 2025-09-01 10:48

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学、Zoom推出LiveMCP‑101：GPT‑5表现最佳但未破60%，闭源模型Token效率对数规律引关注

杜克大学与 Zoom 的研究者们推出了 LiveMCP-101，这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务，涵盖旅行规划，体育娱乐，软件工程等多种不同场景，要求 Agent 在多步骤、多工具协同的场景下完成任务。

来自主题: AI技术研报

8201 点击 2025-08-29 11:13

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗？前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

来自主题: AI资讯

10480 点击 2025-08-15 20:41

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

最强具身大脑，宝座易主！在10项评测中，国产RoboBrain 2.0全面超越GPT-4o。这次，智源研究院开源了具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。不仅问鼎评测基准SOTA，还成功刷新跨本体多机协作技术范式！

来自主题: AI技术研报

10339 点击 2025-07-14 16:12

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

最近，上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。

来自主题: AI技术研报

10089 点击 2025-07-08 11:18

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布！巧妙构建超高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲美大模型性能。

来自主题: AI技术研报

9256 点击 2025-07-05 14:00

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

来自主题: AI技术研报

9549 点击 2025-06-20 15:23

上一页当前第3页,共5页下一页