AI资讯新闻榜单内容搜索-模型推理

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

9062 点击 2026-05-07 10:16

普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T模型实测：延迟暴降64%！大模型推理“围城”攻破了！

在 AI 工程界，长文本推理一直是个“富贵病”。

来自主题: AI技术研报

8886 点击 2026-04-21 16:16

小模型用不好Skill？新范式SKILL0让模型学会Skill的底层逻辑，3B模型推理token省5倍

浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0，并提出技能内化（Skill Internalization）——小模型真正需要的，或许不是推理时的“外挂技能”，而是将技能内化为本能。

来自主题: AI技术研报

9086 点击 2026-04-12 11:56

比全球最强推理引擎还快2倍，斯坦福、普林斯顿破解大模型「串行魔咒」

在大语言模型推理领域，虽然「推测解码」（Speculative Decoding，SD）已成为加速生成的标准配置，但它依然存在一个致命弱点： drafting（草拟）和 verification（验证）之间必须串行进行。

来自主题: AI技术研报

8372 点击 2026-04-01 16:20

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存（Feature Caching）方案在追求高倍率加速时，常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报

8831 点击 2026-04-01 16:13

2倍提速！KV缓存压缩不只看重要性，上交大团队让模型推理「又快又稳」 | ICLR'26

长上下文推理已经成了VLM/LLM的默认形态。

来自主题: AI技术研报

6469 点击 2026-04-01 09:40

务工家庭走出00后天才！AI初创公司Axiom宣布完成2亿美元A轮融资

2亿美元A轮融资，估值110亿，成立仅一年就成为独角兽。更震撼的是创始人——25岁的广州00后洪乐潼，父母是从未上过大学的普通务工者。她用数学解决AI最大的痛点：让模型推理步步可验证，彻底杜绝幻觉。为了加入她，弗吉尼亚大学终身教授直接辞职。

来自主题: AI资讯

7906 点击 2026-03-30 10:36

速递！百度投资多模型API聚合平台“AnyInt”，主体公司成立不到半年

《读佳》获悉，百度投资了一家专门做智能多模型推理的平台“AnyInt”，主体公司为上海宏诺伊曼科技有限公司（下简称“宏诺伊曼科技”），本月，百度关联公司北京百度网讯科技有限公司认缴17.6471万元，

来自主题: AI资讯

7921 点击 2026-03-30 09:11

独家｜聚焦大模型推理，水下AI芯片公司斩获10亿元Pre-A轮融资

ZP独家获悉，AI芯片及系统架构研发商“上海昉擎科技”于近日完成 Pre-A3 轮融资，新引入投资人国开科创、钧山资本、建发新兴投资、多维资本，多维资本担任本轮融资财务顾问并担任后续融资独家财务顾问。

来自主题: AI资讯

9233 点击 2026-03-09 10:49

DeepSeek新论文来了！联手清华、北大，优化智能体大模型推理

「DeepSeek V4 来了！」这样的消息是不是已经听烦了？总结来说，这篇新论文介绍了一个名为「DualPath」的创新推理系统，专门针对智能体工作负载下的大语言模型（LLM）推理性能进行优化。具体来讲，通过引入「双路径 KV-Cache 加载」机制，解决了在预填充 - 解码（PD）分离架构下，KV-Cache 读取负载不平衡的问题。

来自主题: AI技术研报

9379 点击 2026-02-27 11:35