AI技术研报-这里有最前沿的人工智能技术解读

李飞飞最新发布ESI-Bench，空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测，而ESI-Bench第一个把观察者变成行动者，闭合了感知-行动回路。

来自主题: AI技术研报

9294 点击 2026-05-22 15:32

如何用 Codex + Blender，做出全网爆火的 3D 人体模型教科书？

这两天刷 X 的时候，发现一类项目特别火，就是用 Codex + Blender + 3D 生成工具做的交互式 3D 模型网站。

来自主题: AI技术研报

6729 点击 2026-05-22 09:58

教大模型终身学习！中科大连发两篇顶会，突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE，解构遗忘机制，并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调，为大模型终身学习开辟了全新路径。

来自主题: AI技术研报

9812 点击 2026-05-22 09:28

北大提出首个可验证的仓库级生成基准RepoZero，评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队，他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero，通过跨语言复现任务与自验证框架 ACE，推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报

8002 点击 2026-05-22 09:27

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

2026 年，世界动作模型（WAM）在具身智能领域逐渐成为一个集中讨论的方向，英伟达等公司也陆续在这一领域投入资源。

来自主题: AI技术研报

10390 点击 2026-05-22 09:27

3.9元搞定Codex！国内也能畅用～（附教程，超简单）

大家好，我是袋鼠帝我发现，最近很多朋友貌似都把自己的主力Agent换成了Codex

来自主题: AI技术研报

10110 点击 2026-05-22 09:25

METR 重磅报告：Opus 4.6 作弊率超 80%！AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码，四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》，Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心：在超过 8 小时的长任务中，至少 16% 的"成功"运行经人工审查后被判定为作弊；而 Opus 4.6 在 MirrorCode 隐藏测试任务中，约 80% 的尝试都在试图绕过规则拿分。AI 变强了，也变得更擅长"走捷径"了。

来自主题: AI技术研报

9063 点击 2026-05-22 09:15

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

训练强化学习智能体时，一个常见问题是：有些 level 太简单，智能体跑几遍就会；有些 level 又太难，智能体几乎得不到有效反馈。前者只是在重复已有能力，后者则会把训练预算消耗在无效探索上。真正有价值的训练环境，往往位于二者之间。

来自主题: AI技术研报

8918 点击 2026-05-22 08:45

大模型也会想太多？清华等提出TaH：跳过93%无效迭代，准确率反而提升

随着 o1/R1 等推理模型的发展 [1][2]，「让模型多想一会儿」几乎成了提升复杂推理能力的标准方案。更长的 Chain-of-Thought、更大的测试时计算、更深的内部推理，都在用更多计算换取更可靠的答案。

来自主题: AI技术研报

8109 点击 2026-05-22 08:44

AI 用了这么久，这 6 件事你可能还没真懂

现在 AI 工具越来越多，但不少人（包括已经习惯使用 AI 的老用户）对屏幕背后到底发生了什么，多半不太了解。

来自主题: AI技术研报

8442 点击 2026-05-22 08:43

刚刚，谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律；与此同时，学界却在悄悄质疑另一个更根本的浪费：传统 VAE 对图像语义几乎一无所知，而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型，真的需要从零开始「发明」对图像的理解吗？

来自主题: AI技术研报

8575 点击 2026-05-21 16:45

CVPR 2026 | 让3DGS看见内部结构，中关村学院GaussianPile实现切片式容积影像快速重建

近年来，3D Gaussian Splatting（3DGS）在三维视觉和图形学中展现出很强的表示与渲染能力。相比传统体素或神经辐射场，它用一组可优化的各向异性高斯来表示三维场景，既能保留连续空间结构，又能实现高速渲染。

来自主题: AI技术研报

5772 点击 2026-05-21 16:09

VAST+清华提出3D生成新范式，空间智能密度控制「把算力花在刀刃上」| SIGGRAPH 2026

如果把现在最热门的几条 3D 生成技术线放在一起看，你会发现它们正在遇到一个很像的问题。

来自主题: AI技术研报

6185 点击 2026-05-21 16:08

智谱落地ZCube，推翻二十年组网逻辑，让同样的GPU多干15%的活

就在刚刚，智谱率先在 GLM-5.1 线上生产集群中完成了新一代组网架构 ZCube 的规模化落地。ZCube 发表于网络领域顶会ACM SIGCOMM 2025，被评价为「significantly change the way we think about and understand networking/显著改变整个行业对网络认知方式」。

来自主题: AI技术研报

9159 点击 2026-05-21 11:11

来自 Codex 官方团队的分享：如何把 Codex 用到极致

大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时，通常只让它们干一件事：写代码。比如让它检查一下代码库，生成个差异对比 (diff)，跑跑测试，然后再提个合并请求 (pull request)。

来自主题: AI技术研报

7130 点击 2026-05-21 10:15

全球排名前三，复旦自进化Harness Engineering让GPT‑5.4再涨7个点

2026 年以来，OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客，OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成：模型的能力释放，依赖于一套精密的外部框架。

来自主题: AI技术研报

9694 点击 2026-05-21 10:13