AI资讯新闻榜单内容搜索-测试时扩展

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

8590 点击 2026-05-25 09:49

憋了4个月，阿里最大最强模型Qwen3-Max-Thinking正式版发布！附一手实测

阿里巴巴推出了Qwen3-Max-Thinking，这是阿里千问系列目前能力最强的旗舰级推理模型，在19项权威基准测试中，Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型打得有来有回，搭配测试时扩展（TTS）能力后，能在不少基准测试上达到SOTA。

来自主题: AI资讯

10589 点击 2026-01-27 11:21

微软发布首个测试时扩展大规模研究，还给出了终极指南

如果说大模型的预训练（Pre-training）是一场拼算力、拼数据的「军备竞赛」，那么测试时扩展（Test-time scaling, TTS）更像是一场在推理阶段进行的「即时战略游戏」。

来自主题: AI技术研报

7888 点击 2025-12-11 11:27

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

来自主题: AI技术研报

10468 点击 2025-12-08 08:51

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

8366 点击 2025-11-06 14:59

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。

来自主题: AI技术研报

9612 点击 2025-09-03 12:03

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

8765 点击 2025-06-10 16:18

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报

9501 点击 2025-04-14 14:39

清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

推理性能提升的同时，还大大减少Token消耗！

来自主题: AI技术研报

8785 点击 2025-04-08 09:25

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

近年来，大语言模型（LLM）的性能提升逐渐从训练时规模扩展转向推理阶段的优化，这一趋势催生了「测试时扩展（test-time scaling）」的研究热潮。

来自主题: AI技术研报

10315 点击 2025-04-06 16:55