大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26
大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。
搜索
大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。
5月9日,Hermes Agent(昵称:爱马仕)登顶OpenRouter全球应用调用量榜首,首次超越OpenClaw(昵称:龙虾)。据OpenRouter应用Token消耗榜最新数据,这一Nous Research旗下开源自进化Agent产品登顶全球应用Token消耗榜,单日Token消耗量达到271B,也就是2710亿Token。
中国移动发布Token运营体系,不是简单卖AI算力,而是要把网络、算力、模型、应用和10亿用户连接起来,打造AI时代的「新梦网」。
最近快手上线的KroWork,解决的就是这件事。让没有技术背景的普通人也拥有制造这类工具的能力!你跟它说一遍需求,它帮你把活儿干完,然后直接把整个流程变成一个可以直接打开的、有界面的、能反复使用的本地软件。
LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining
智能体时代的核心是算力。
Anthropic在四月初发布Mythos,距离现在已经近一个月。行业内对于它的讨论,更多的关注点在于“它有多强”,但我更想聊聊它的“发布方式”。
多轮视觉问答,正在成为LVLM推理效率的“照妖镜”。
近日,这家公司宣布此前已再获超7亿元融资。这个融资规模,稳稳位居国内AI原生基础设施企业第一梯队,也是国内底层AI赛道成长速度最惊人的新锐企业之一。
当地时间 5 月 5 日,迈阿密一家名为 Subquadratic 的公司走出隐身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 称作“a major breakthrough in LLM intelligence”(LLM 智能领域的重大突破),