AI资讯新闻榜单内容搜索-benchmark

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

百川智能表示今年上半年，将陆续发布两款 to C 的医疗产品。作者｜Li Yuan 编辑｜郑玄你有没有向 AI 助手问过你的健康问题？如果你和我一样是一个 AI 的深度用户，大概率你也试过。 O

来自主题: AI资讯

10070 点击 2026-01-14 09:24

刚刚！智谱唐杰发内部信：回归AGI主线，GLM5很快发布！不做传统公司，用咖啡精神做AGI！曝2026发力点：模型架构和学习范式

1月8日，大模型六小龙第一股，智谱上市了，市值直超551亿港元，而且一路涨幅超已逾7%。而就在上市前一天，小编注意到，智谱创立发起人兼首席科学家唐杰在微博上发布了一条充满预告意味的帖子，称：“AA（artificialanalysis）换了几个benchmark，基本是把原来刷爆的都换了，现在评估越来越难，新增加的Physical Reasoning貌似还很难。。。。”

来自主题: AI资讯

9427 点击 2026-01-08 16:16

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

将多模态数据纳入到RAG，甚至Agent框架，是目前LLM应用领域最火热的主题之一，针对多模态数据最自然的召回方式，便是向量检索。

来自主题: AI技术研报

7536 点击 2025-12-26 09:40

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

9553 点击 2025-11-28 09:28

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到，Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型（前沿模型）持平，并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型，以及那些被标榜为"快速"的模型。

来自主题: AI技术研报

9353 点击 2025-11-11 11:12

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报

8466 点击 2025-10-23 16:22

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

来自主题: AI技术研报

9940 点击 2025-10-23 12:20

6个AI，6万美金，玩真的炒币，DeepSeek赚钱第一名

这世上有太多 AI benchmark 了，但没有一个 benchmark 能让你心跳加速。直到近日，AlphaArena 出现了。这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」，现在已开放全网围观：竞技场地址：https://nof1.ai/

来自主题: AI资讯

9797 点击 2025-10-20 15:32

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8360 点击 2025-10-20 10:13

6个月内连融两轮5300万美元，这家AI税务公司让Benchmark和YC都抢着投

最近，一家叫 Numeral 的公司刚刚完成了 3500 万美元的 B 轮融资，由 Mayfield 领投，Benchmark、Uncork Capital、Y Combinator 和 Mantis 参与。这轮融资距离他们今年 3 月完成的 1800 万美元 A 轮仅仅过去了 6 个月，公司估值已经达到 3.5 亿美元。

来自主题: AI资讯

10180 点击 2025-09-28 09:52

AI资讯新闻榜单内容搜索-benchmark

发布 ChatGPT 健康 6 天后，OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

刚刚！智谱唐杰发内部信：回归AGI主线，GLM5很快发布！不做传统公司，用咖啡精神做AGI！曝2026发力点：模型架构和学习范式

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

AI基准测试集体塌房，最高84%都是坏题 ｜斯坦福最新研究

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

6个AI，6万美金，玩真的炒币，DeepSeek赚钱第一名

AI点外卖哪家强，美团LongCat团队做了个全面评测

6个月内连融两轮5300万美元，这家AI税务公司让Benchmark和YC都抢着投

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究