AI资讯新闻榜单内容搜索-AI基准

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

豆包产品无敌，但Seed模型一直不温不火，大伙对它的印象就两个：工资高，隔三差五就有千万年包上亿年包新闻，也不知道真假；多模态，但编程能力不太行。

来自主题: AI资讯

6784 点击 2026-06-29 09:19

葬AI基准测试发布：GLM 5.2第一，超越Opus 4.8

这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力，我自研了一个Benchmark，完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型，还引入了境外势力Claude作对照组。

来自主题: AI资讯

8304 点击 2026-06-17 13:30

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

群论领域几十年无解的第21.10号问题，被牛津数学家Marc Lackenby用谷歌一个新系统破解了。过程也很有意思：AI第一次给出的证明是错的，被系统里的审查Agent揪出了漏洞。

来自主题: AI资讯

8714 点击 2026-05-09 13:18

硬刚马斯克，超越Sora2的国产模型强势登场了！支持16秒声画同出

今日，来自生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单，位列中国第一，全球第二。这是最新榜单内，首个打入国际第一梯队的国产视频生成模型。

来自主题: AI资讯

10049 点击 2026-01-31 16:14

人类基准测试大翻车：样本不足、方法不透明，AI性能结论可信吗？

我们经常在一些对比 AI 性能的测试中，看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。

来自主题: AI资讯

6595 点击 2025-12-29 09:36

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

9612 点击 2025-11-28 09:28

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8412 点击 2025-10-20 10:13