AI技术研报-这里有最前沿的人工智能技术解读

ACL 2026｜世界模型能让智能体「预知未来」？这篇新范式研究给了一个反直觉的答案

来自伊利诺伊大学香槟分校、清华大学、约翰霍普金斯大学以及哥伦比亚大学的研究人员在反复试验后，却得出来一个与我们的直觉有点相反的结论：大多数当下智能体并不能稳定、有效地把世界模型当作前瞻工具。

来自主题: AI技术研报

7469 点击 2026-05-04 10:16

ACL 2026 | RouteMoA：无需预推理的动态路由，实现高效多智能体混合

研究者开始尝试让 MoA 变稀疏。例如，一些方法如 Sparse MoA 会先让模型池中的所有模型生成回答，再通过额外的评审模型进行打分和筛选，只保留一部分模型进入后续协作。这样虽然减少了后续融合的负担，但本质上仍然绕不开一个问题：为了决定该选谁，系统还是得先让所有模型都推理一遍。

来自主题: AI技术研报

6870 点击 2026-05-04 10:16

Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守

一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了，只有1个拒绝。更恐怖的是，Anthropic自家论文证实：模型学会作弊后，会主动破坏监视它的代码。

来自主题: AI技术研报

8130 点击 2026-05-03 23:43

几千年都没考过这个？谷歌「最毒」AI考局，专测你在压力下怎么做人

最近，Google Research推出了一个叫Vantage的实验项目，就把这件事给干了。Vantage项目由谷歌联合纽约大学开发，主要设想是利用GenAI模拟团队协作场景，以此来开发和测量被测试者的软技能。

来自主题: AI技术研报

10628 点击 2026-05-03 23:04

深扒GPT Image 2：疑似“吞”下了GPT-4o，OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强？是扩散模型又迭代了一版？是把 DiT 的参数量从 7B 扩到 20B？是训了更多高质量数据？先给结论：OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划，至于最后一步的像素生成，可能由扩散组件或其他解码器完成。

来自主题: AI技术研报

8256 点击 2026-05-03 22:58

OpenAI参与，重卷ImageNet：终于把FID做成训练

来自USC、CMU、CUHK和OpenAI的全华阵容研究团队，提出了一种叫FD-loss的方法，把“算统计的样本池”和“算梯度的batch”彻底解耦。依靠数万张图像组成的大容量缓存队列或指数移动平均机制，稳定完成分布估算，仅针对当下小批量数据开展梯度回传。

来自主题: AI技术研报

8051 点击 2026-05-03 22:46

DeepSeek V4最大的遗憾

DeepSeekV4的技术报告里有mHC，有CSA，有HCA，有Muon，有FP4……唯独没有Engram。Engram在今年1月由DeepSeek和北大联合开源，主要研究大模型的记忆与效率问题。

来自主题: AI技术研报

7899 点击 2026-05-03 22:45

突破视觉仿真算力瓶颈！新一代具身智能仿真框架开源：高吞吐并行高保真渲染助力规模化训练

为了攻克这些制约具身智能领域发展的核心难题，清华大学智能产业研究院（AIR）DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人，提出了GS-Playground通用多模态仿真框架。

来自主题: AI技术研报

8183 点击 2026-05-03 22:41

这套题，GPT-5.5、Opus 4.7加起来没考到「1分」，人类却拿了满分100？

近日，ARC Prize 官方发布了针对这两款顶级模型的详细分析报告，结果令人震惊：在面对未见过的逻辑任务时，两者的表现得分均低于 1%，GPT-5.5 得分 0.43%，Claude Opus 4.7 得分 0.18%。

来自主题: AI技术研报

9466 点击 2026-05-02 15:00

ICLR 2026｜CMU等团队让AI生成的3D场景真正「站得住」：PAT3D把文生3D从能看推进到能模拟、能交互

现在的 3D AIGC 已经可以很快生成场景，但离真正落地还有一段距离。很多场景看起来还行，一进物理模拟就会暴露问题，比如物体悬空、互相穿插，甚至还没碰就散。这些问题让它们很难直接用于游戏、XR 或机器人等实际场景。

来自主题: AI技术研报

9088 点击 2026-05-02 13:35

有人只用API就猜出了GPT、Claude、Gemini的参数量？社区吵翻了

基于此，研究者在 89 个参数量已知的开源模型（规模从 1.35 亿到 1.6 万亿参数）上拟合出事实准确率与参数量的对数线性关系，拟合优度 R² = 0.917，并据此对闭源模型进行参数估算。

来自主题: AI技术研报

9638 点击 2026-05-01 13:13

腾讯混元CL-bench续作发布，让大模型读懂你的日常生活

在 AGI-Next 前沿峰会上，腾讯姚顺雨举了一个很生活化的例子：当你问 AI “今天吃什么” 时，真正限制答案质量的，可能不是模型不够大，也不是推理不够强，而是它不知道你今天冷不冷、想不想吃热的、最近和朋友聊过什么、家人又有什么偏好需要纳入考虑。

来自主题: AI技术研报

7740 点击 2026-05-01 13:12

「生物信息学」评测，Claude 反超人类专家

今天 Anthropic 放出了一项评估数据，对于新的生物信息学评测集 BioMysteryBench：人类能搞定的，Claude 也能搞定；在人类搞不定的，Mythos 也能搞定

来自主题: AI技术研报

9509 点击 2026-05-01 11:08

AI 购物，从万能的淘宝相机开始

《DT商业观察》留意到，即便是电商常见的“图搜找同款”场景，自从淘宝图像搜索产品@拍立淘新上线了“AI模式”，把“图搜”功能进化成“启发式图搜”，用户的玩法也已升级。

来自主题: AI技术研报

8724 点击 2026-05-01 11:06

终结多智能体视觉幻觉“滚雪球”！新国立等提出ViF：无需改造模型，即插即用

基于视觉语言模型（VLM）的多智能体系统（MAS）正成为复杂多模态协作的核心方案，却被一个致命痛点死死卡住：多智能体视觉幻觉滚雪球——单个智能体的视觉误判通过纯文本信息流逐级放大，早期细微错误最终演变成系统性崩溃。

来自主题: AI技术研报

7966 点击 2026-05-01 10:46

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

刚刚，DeepSeek 在 Github 上正式发布了多模态模型，公布了背后的技术报告。实打实的新鲜出炉！而且是开创性的推理范式。下面我们就基于 DeepSeek 这篇技术报告，具体看看 DeepSeek、北京大学、清华大学又创造了怎样的奇迹。

来自主题: AI技术研报

9919 点击 2026-04-30 20:24

大模型“降智”真相，找到了

今天，智谱发布了一篇名为《Scaling Pain：超大规模Coding Agent推理实践》的技术报告，披露了GLM-5系列模型在Coding Agent场景下遇到的推理基础设施挑战与对应解法。

来自主题: AI技术研报

10119 点击 2026-04-30 13:52

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

智元机器人的办公室里，最近员工们一上班就能看到机器人熟练地切着水果：这么全面的能力是如何做到的？答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式：面向通用机器人策略的分布式多机强化学习（LWD）。这一套技术捅破了当前VLA的「天花板」。

来自主题: AI技术研报

7111 点击 2026-04-30 13:52

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

据央视新闻报道，今天，《全国数据资源调查报告（2025 年）》在第九届数字中国建设峰会上发布。报告显示，2025 年，全国数据生产总量同比增长 27.28%，达到 52.26ZB（ZettaByte，泽字节 | 1ZB=1024EB），这相当于全国所有算力中心存储容量的近 30 倍。从国际来看，我国数据生产总量占全球的 27.44%。

来自主题: AI技术研报

9355 点击 2026-04-30 12:50

ACL 2026｜答得更准还写得更短？华为泰勒实验室提出SHAPE，给LLM推理装了个「推理税」

来自华为泰勒实验室、北京大学和上海财经大学的研究团队提出了 SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation），给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模型每一步推得对不对，还让它为啰嗦付出代价。结果是：准确率平均提升 3%，token 消耗直降 30%。

来自主题: AI技术研报

8532 点击 2026-04-30 12:12

ACL 2026｜Doc-V*：读100页文档不如只翻对5页，80页场景「暴打」RAG 10个点

Doc-V* 由小米大模型 Plus 团队和华中科技大学 VLRLab 团队合作提出，一种从「静态阅读」到「主动探索」的多页文档理解新范式，通过交互式视觉推理让模型像人一样有策略地阅读长文档。

来自主题: AI技术研报

9122 点击 2026-04-30 09:00

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

普林斯顿大学助理教授刘壮，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

来自主题: AI技术研报

9274 点击 2026-04-30 08:39

2026，Agent死于上下文失焦（附7大Claude Code 记忆遗忘与管理工具）

搭了个agent，结果该被记住的历史交互经验一点没记住，不该被记住的工具调用结果、过程输出被一股脑塞进上下文，导致输出质量下滑，类似的上下文失焦问题，这是多少人做agent时候的噩梦？

来自主题: AI技术研报

9092 点击 2026-04-30 08:35

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

伦敦大学学院（UCL）、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web，让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构（如 iframe、Shadow DOM）时，往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。

来自主题: AI技术研报

8830 点击 2026-04-30 08:32

成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

在语言学中，人类之所以能听懂“那个东西”、“它”、“这个重物”，依赖于桥接推理理论 (bridging inference)，即通过上下文信息在已有记忆与当前表达之间建立联系，从而恢复指代对象。

来自主题: AI技术研报

6607 点击 2026-04-29 09:55

ICLR 2026 Oral | 没人诱导，大模型也会「骗人」

新加坡国立大学 Bingsheng He 教授团队一篇最新入选 ICLR 2026 Oral 的论文，把视角放在了一个更贴近日常使用场景的问题上：人们更熟悉的，是用户故意诱导模型说假话的情形；而这篇工作真正追问的是，在没有刻意诱导、只是正常提问的情况下，模型会不会也出现某种 “表面这样答，实际那样想” 的现象。

来自主题: AI技术研报

7345 点击 2026-04-29 09:48

LangFlow: 挑战离散扩散，探索下一代语言模型新范式

主要作者团队：Yuxin Chen 现为伊利诺伊大学厄巴纳 - 香槟分校（UIUC）硕士一年级学生，Chumeng Liang 为 UIUC 博士一年级学生，Hangke Sui 为 UIUC 博士二年级学生，Ge Liu 为 UIUC 计算机系助理教授。Liu Lab 团队长期聚焦扩散 / 流模型方向，

来自主题: AI技术研报

7453 点击 2026-04-29 09:36

ACL 2026 | LCA：DeepSeek 长文本加速神器，90% KV 缓存缩减 + 2.5 倍推理提速

近日，琶洲实验室、华南理工大学、蔻町（AIGCode）等单位科研团队联合提出潜在空间压缩注意力（Latent-Condensed Attention，LCA），研究成果入选 ACL 2026。

来自主题: AI技术研报

8916 点击 2026-04-29 09:35

流式意图检测+永久记忆，NUS&NTU发布Pask：把贾维斯AI拉进现实

让AI像助手一样主动帮助，才是我们心中AGI的样子。主动智能体的概念已经被多次提出，但都很难做到可以真正在生活中落地。现有的工作都还停留在概念层面，无法解决复杂世界中所要求的实时性、深度、和记忆等问题。南洋理工大学谢之非团队提出Pask，使用「底层小模型流式意图检测」+ 「上层Agents执行」架构，实现首个能够做到实时、有深度、基于个人全局记忆自进化的主动智能体。

来自主题: AI技术研报

8089 点击 2026-04-28 15:08

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070即可实时运行

你有没有想过，不用联网、仅用一张消费级显卡，就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手？这就是 MiniCPM-o 4.5 所能做到的。在技术创新下，它仅凭 9B 参数，实现了业界首个端到端全双工全模态大模型，让端侧 AI 普惠成为现实。其自 2026 年 2 月模型发布以来，在 Hugging Face 上的下载量已突破 25 万+。

来自主题: AI技术研报

7631 点击 2026-04-28 13:15