AI资讯新闻榜单内容搜索-HLE

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: HLE
会议软件Zoom也来搞AI了,称在AI最难考试上“击败”了Gemini 3

会议软件Zoom也来搞AI了,称在AI最难考试上“击败”了Gemini 3

会议软件Zoom也来搞AI了,称在AI最难考试上“击败”了Gemini 3

最近,视频会议软件公司 Zoom 发布了一条出人意料的消息:他们宣称在“人类最后的考试”(Humanity s Last Exam,简称 HLE)这个号称当前 AI 领域最具挑战性的基准测试上,取得了 48.1% 的成绩,比此前由 Google Gemini 3 Pro(带工具)保持的 45.8% 高出 2.3 个百分点。

来自主题: AI资讯
7203 点击    2025-12-15 17:26
别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

来自主题: AI技术研报
8633 点击    2025-12-12 08:58
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破

来自主题: AI技术研报
8331 点击    2025-09-29 15:14
从概念到生产级部署:AWS如何破解Agentic AI落地难题?

从概念到生产级部署:AWS如何破解Agentic AI落地难题?

从概念到生产级部署:AWS如何破解Agentic AI落地难题?

红杉美国合伙人 Konstantine Buhler 预测 2025 年将成为 AI agent 的“群体协作”时代,标志着 Agent 元年的到来。

来自主题: AI资讯
10571 点击    2025-07-18 14:02
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

来自主题: AI资讯
9660 点击    2025-07-05 11:38
Meta回应Llama 4大模型质量争议: Llama 4「开卷作弊」纯属无稽之谈

Meta回应Llama 4大模型质量争议: Llama 4「开卷作弊」纯属无稽之谈

Meta回应Llama 4大模型质量争议: Llama 4「开卷作弊」纯属无稽之谈

今日凌晨,Meta AI 部门副总裁 Ahmad Al-Dahle 发文,回应了近日发布的 Llama 4 大模型的争议问题:对于「不同服务中模型质量参差不齐」这一问题,Ahmad Al-Dahle 解释称,由于模型一准备好就发布了,所以 Meta 的团队预计所有公开的应用实现都需要几天时间来进行优化调整,团队后续会继续进行漏洞修复工作。

来自主题: AI资讯
8970 点击    2025-04-08 10:36