AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

日常聊天可能在不经意间污染个性化Agent的长期记忆,使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现,即使无恶意提示,日常对话也可能改变Agent的安全边界。

来自主题: AI技术研报
7146 点击    2026-05-23 09:57
ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

近年来,Mixture-of-Experts(MoE)已经成为大模型扩展的重要架构之一。相比稠密 Transformer,MoE 通过稀疏激活机制,在每个 token 上只调用少量专家,从而在控制计算成本的同时扩大模型容量。然而,一个长期存在的问题是:专家越多,并不意味着专家真的学得越 “专”。

来自主题: AI技术研报
7370 点击    2026-05-23 09:56
终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

Jim Fan 押注的这条 “先预测世界,再生成动作” 的新路,正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型(World Action Models,简称 WAM)。虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点,但业界至今仍然缺乏对它的统一标准和系统梳理。近期,复旦大学可信具身智能研究院,上海创智学院,新加坡国立大学发表了首篇 WAM 的详细综述。

来自主题: AI技术研报
7080 点击    2026-05-23 09:55
CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动(Motion)为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入,HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。

来自主题: AI技术研报
7705 点击    2026-05-23 09:55
首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

英伟达提出了全球首个三模式的大语言模型系列,只需简单更改注意力模式 / 掩码,即可在自回归、扩散和自推测解码之间切换。一个模型,三种解码模式,没有额外的草稿模型,没有架构变更。最快的模式 token 吞吐量能提升 4 倍。

来自主题: AI技术研报
8989 点击    2026-05-22 15:33
李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。

来自主题: AI技术研报
8807 点击    2026-05-22 15:32
如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

这两天刷 X 的时候,发现一类项目特别火,就是用 Codex + Blender + 3D 生成工具做的交互式 3D 模型网站。

来自主题: AI技术研报
5274 点击    2026-05-22 09:58
教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。

来自主题: AI技术研报
9379 点击    2026-05-22 09:28
北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报
7546 点击    2026-05-22 09:27
LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

2026 年,世界动作模型(WAM)在具身智能领域逐渐成为一个集中讨论的方向,英伟达等公司也陆续在这一领域投入资源。

来自主题: AI技术研报
9981 点击    2026-05-22 09:27
3.9元搞定Codex!国内也能畅用~(附教程,超简单)

3.9元搞定Codex!国内也能畅用~(附教程,超简单)

3.9元搞定Codex!国内也能畅用~(附教程,超简单)

大家好,我是袋鼠帝 我发现,最近很多朋友貌似都把自己的主力Agent换成了Codex

来自主题: AI技术研报
9500 点击    2026-05-22 09:25
METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》,Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心:在超过 8 小时的长任务中,至少 16% 的"成功"运行经人工审查后被判定为作弊;而 Opus 4.6 在 MirrorCode 隐藏测试任务中,约 80% 的尝试都在试图绕过规则拿分。AI 变强了,也变得更擅长"走捷径"了。

来自主题: AI技术研报
8392 点击    2026-05-22 09:15
ICML 2026|传统UED瓶颈被打破,强化学习也能精准定位「最近发展区」

ICML 2026|传统UED瓶颈被打破,强化学习也能精准定位「最近发展区」

ICML 2026|传统UED瓶颈被打破,强化学习也能精准定位「最近发展区」

训练强化学习智能体时,一个常见问题是:有些 level 太简单,智能体跑几遍就会;有些 level 又太难,智能体几乎得不到有效反馈。前者只是在重复已有能力,后者则会把训练预算消耗在无效探索上。真正有价值的训练环境,往往位于二者之间。

来自主题: AI技术研报
8566 点击    2026-05-22 08:45
大模型也会想太多?清华等提出TaH:跳过93%无效迭代,准确率反而提升

大模型也会想太多?清华等提出TaH:跳过93%无效迭代,准确率反而提升

大模型也会想太多?清华等提出TaH:跳过93%无效迭代,准确率反而提升

随着 o1/R1 等推理模型的发展 [1][2],「让模型多想一会儿」几乎成了提升复杂推理能力的标准方案。更长的 Chain-of-Thought、更大的测试时计算、更深的内部推理,都在用更多计算换取更可靠的答案。

来自主题: AI技术研报
7742 点击    2026-05-22 08:44
AI 用了这么久,这 6 件事你可能还没真懂

AI 用了这么久,这 6 件事你可能还没真懂

AI 用了这么久,这 6 件事你可能还没真懂

现在 AI 工具越来越多,但不少人(包括已经习惯使用 AI 的老用户)对屏幕背后到底发生了什么,多半不太了解。

来自主题: AI技术研报
8033 点击    2026-05-22 08:43
刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律;与此同时,学界却在悄悄质疑另一个更根本的浪费:传统 VAE 对图像语义几乎一无所知,而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型,真的需要从零开始「发明」对图像的理解吗?

来自主题: AI技术研报
8149 点击    2026-05-21 16:45
CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

近年来,3D Gaussian Splatting(3DGS)在三维视觉和图形学中展现出很强的表示与渲染能力。相比传统体素或神经辐射场,它用一组可优化的各向异性高斯来表示三维场景,既能保留连续空间结构,又能实现高速渲染。

来自主题: AI技术研报
5384 点击    2026-05-21 16:09
智谱落地ZCube,推翻二十年组网逻辑,让同样的GPU多干15%的活

智谱落地ZCube,推翻二十年组网逻辑,让同样的GPU多干15%的活

智谱落地ZCube,推翻二十年组网逻辑,让同样的GPU多干15%的活

就在刚刚,智谱率先在 GLM-5.1 线上生产集群中完成了新一代组网架构 ZCube 的规模化落地。ZCube 发表于网络领域顶会ACM SIGCOMM 2025,被评价为「significantly change the way we think about and understand networking/显著改变整个行业对网络认知方式」。

来自主题: AI技术研报
8569 点击    2026-05-21 11:11
来自 Codex 官方团队的分享:如何把 Codex 用到极致

来自 Codex 官方团队的分享:如何把 Codex 用到极致

来自 Codex 官方团队的分享:如何把 Codex 用到极致

大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时,通常只让它们干一件事:写代码。比如让它检查一下代码库,生成个差异对比 (diff),跑跑测试,然后再提个合并请求 (pull request)。

来自主题: AI技术研报
6492 点击    2026-05-21 10:15
全球排名前三,复旦自进化Harness Engineering让GPT‑5.4再涨7个点

全球排名前三,复旦自进化Harness Engineering让GPT‑5.4再涨7个点

全球排名前三,复旦自进化Harness Engineering让GPT‑5.4再涨7个点

2026 年以来,OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客,OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成:模型的能力释放,依赖于一套精密的外部框架。

来自主题: AI技术研报
9271 点击    2026-05-21 10:13
ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?

来自主题: AI技术研报
9127 点击    2026-05-20 15:16
ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

ICML 2026|表格异常检测能否告别「one-for-one」?OFA-TAD迈向one-for-all通用异常检测新范式

表格异常检测(Tabular Anomaly Detection,TAD)旨在从结构化数据中精准识别显著偏离正常分布的稀有样本,其在医疗诊断、金融风控及网络安全等关键领域的数据挖掘与安全保障任务中发挥着核心作用。

来自主题: AI技术研报
8114 点击    2026-05-20 15:13
RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG 系统上线后答案出错,绝大多数团队的第一反应都是换更贵的模型、反复调试 prompt。

来自主题: AI技术研报
5211 点击    2026-05-20 15:13
QoderWork Design 上线,设计即代码,不输 Claude Design

QoderWork Design 上线,设计即代码,不输 Claude Design

QoderWork Design 上线,设计即代码,不输 Claude Design

阿里的 QoderWork 最新上线了一个设计工作台(Design Desk),定位是用自然语言做出可交付的专业设计,从想法到工程级产物,中间不需要 Figma。

来自主题: AI技术研报
6089 点击    2026-05-20 10:35
20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

20刀月费秒变API!Hermes一行命令就能用上Claude、ChatGPT订阅

游戏规则要被改写了!Hermes Agent一键把模型订阅变成标准API,零成本驱动全套工具链。Grok同步杀入Agent生态。

来自主题: AI技术研报
5641 点击    2026-05-20 10:34
DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

近日,谷歌 DeepMind 研究员 Lun Wang@lunwang1996,在 x 上发文宣布自己已经从 DeepMind 离职,结束了这段非常精彩的旅程,「我非常感谢曾经共事的人、我们一起打造的东西,以及我在将前沿 AI 研究推向生产环境过程中学到的经验。」

来自主题: AI技术研报
7203 点击    2026-05-20 10:11
Anthropic 更新:Managed Agent 开放自托管

Anthropic 更新:Managed Agent 开放自托管

Anthropic 更新:Managed Agent 开放自托管

刚刚 Anthropic 又给他们的官方 Managed Agents 加了俩功能:自托管沙箱 self-hosted sandboxes 和 MCP 隧道 MCP tunnels

来自主题: AI技术研报
8957 点击    2026-05-20 10:11