AI资讯新闻榜单内容搜索-TIM

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

7292 点击 2025-11-09 15:33

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

7098 点击 2025-11-08 15:48

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

7509 点击 2025-11-06 14:59

我为马斯克扮演机器人！擎天柱背后竟是最贵「演员团」

擎天柱靓丽演示背后，是近百号员工每日8小时，疯狂重复固定动作，擦桌子、扮大猩猩等，他们正用体力「喂饱」擎天柱。

来自主题: AI资讯

10659 点击 2025-11-04 11:34

刚刚，智源悟界·Emu3.5重塑世界模型格局，原生具备世界建模能力

今天，北京智源人工智能研究院（BAAI）重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代，Emu3.5 被定义为一个 “多模态世界大模型”（Multimodal World Foudation Model）。

来自主题: AI资讯

9116 点击 2025-10-30 18:07

Efficiency Law, 物理精确世界模型，及世界模型引擎驱动的具身智能学习新范式

2025 年秋的具身智能赛道正被巨头动态点燃：特斯拉上海超级工厂宣布 Optimus 2.0 量产下线，同步开放开发者平台提供运动控制与环境感知 SDK，试图通过生态共建破解数据孤岛难题；英伟达则在 SIGGRAPH 大会抛出物理 AI 全栈方案，其 Omniverse 平台结合 Cosmos 世界模型可生成高质量合成数据，直指真机数据短缺痛点。

来自主题: AI技术研报

8973 点击 2025-10-27 17:05

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

6887 点击 2025-10-23 11:41

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

6763 点击 2025-10-19 12:06

李飞飞全新「世界模型」问世！单张H100实时生成3D永恒世界

一张图，一个3D世界！今天，李飞飞团队重磅放出实时生成世界模型「RTFM」，通过端到端学习大规模视频数据，直接从输入2D图像生成同一场景下新视角的图像。值得一提的是，它仅需单块H100 GPU便能实时渲染出持久且3D一致的世界。

来自主题: AI资讯

9400 点击 2025-10-17 11:55

李飞飞发布全新世界模型，单GPU就能跑！

李飞飞的世界模型创业，最新成果来了！刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time Frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——单张H100 GPU就能跑。

来自主题: AI资讯

10901 点击 2025-10-17 09:08