AI资讯新闻榜单内容搜索-TIM

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

8277 点击 2025-11-06 14:59

我为马斯克扮演机器人！擎天柱背后竟是最贵「演员团」

擎天柱靓丽演示背后，是近百号员工每日8小时，疯狂重复固定动作，擦桌子、扮大猩猩等，他们正用体力「喂饱」擎天柱。

来自主题: AI资讯

11296 点击 2025-11-04 11:34

刚刚，智源悟界·Emu3.5重塑世界模型格局，原生具备世界建模能力

今天，北京智源人工智能研究院（BAAI）重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代，Emu3.5 被定义为一个 “多模态世界大模型”（Multimodal World Foudation Model）。

来自主题: AI资讯

9862 点击 2025-10-30 18:07

Efficiency Law, 物理精确世界模型，及世界模型引擎驱动的具身智能学习新范式

2025 年秋的具身智能赛道正被巨头动态点燃：特斯拉上海超级工厂宣布 Optimus 2.0 量产下线，同步开放开发者平台提供运动控制与环境感知 SDK，试图通过生态共建破解数据孤岛难题；英伟达则在 SIGGRAPH 大会抛出物理 AI 全栈方案，其 Omniverse 平台结合 Cosmos 世界模型可生成高质量合成数据，直指真机数据短缺痛点。

来自主题: AI技术研报

9741 点击 2025-10-27 17:05

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

7619 点击 2025-10-23 11:41

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7459 点击 2025-10-19 12:06

李飞飞全新「世界模型」问世！单张H100实时生成3D永恒世界

一张图，一个3D世界！今天，李飞飞团队重磅放出实时生成世界模型「RTFM」，通过端到端学习大规模视频数据，直接从输入2D图像生成同一场景下新视角的图像。值得一提的是，它仅需单块H100 GPU便能实时渲染出持久且3D一致的世界。

来自主题: AI资讯

10001 点击 2025-10-17 11:55

李飞飞发布全新世界模型，单GPU就能跑！

李飞飞的世界模型创业，最新成果来了！刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time Frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——单张H100 GPU就能跑。

来自主题: AI资讯

11471 点击 2025-10-17 09:08

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10491 点击 2025-10-16 12:31

苹果再发论文：精准定位LLM幻觉，GPT-5、o3都办不到

论文提出的方法名为 RL4HS，它使用了片段级奖励（span-level rewards）和类别感知的 GRPO（Class-Aware Group Relative Policy Optimization），从而避免模型偷懒、只输出无错误预测。

来自主题: AI资讯

9893 点击 2025-10-07 22:11