AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude「永久大脑」,真的来了!

Claude「永久大脑」,真的来了!

Claude「永久大脑」,真的来了!

刚刚,Claude「双记忆系统」首次爆出!全新「文件记忆」让AI一边聊天,一边自动做笔记。还有杀手级Conway Agent浮出水面,7x24小时永不下线。

来自主题: AI技术研报
6584 点击    2026-05-25 15:13
Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。

来自主题: AI技术研报
9844 点击    2026-05-25 15:10
把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

刚刚的,面壁智能联合 OpenBMB 搞了个端侧开源周。今天作为开源周的第一天,端出来的是个好东西 BitCPM-CANN,模型权重只需要约 200 MB 的内存,手表也够跑

来自主题: AI技术研报
6728 点击    2026-05-25 14:44
教你如何配置出最强性能的Claude Code

教你如何配置出最强性能的Claude Code

教你如何配置出最强性能的Claude Code

Claude Code 的 settings.json 里有 125 个配置键。官方文档只讲了大约 40 个。

来自主题: AI技术研报
5261 点击    2026-05-25 10:16
AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

219个词喂给AI,12小时后,一份7nm芯片版图出来了,工程师全程没碰键盘。这条芯片行业几十年没有AI走完过的路,第一次走通了。

来自主题: AI技术研报
7159 点击    2026-05-25 10:15
还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

5 月 22 日,Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道:「经过一些数学重写,结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue(矩阵乘法加尾声)。给定一些优化的原语,LLM(以及新手)就可以为所有 Transformer 操作编写光速内核!」

来自主题: AI技术研报
8383 点击    2026-05-25 10:13
AI Agent 距离真正替人「全自动办公」,还有多远?

AI Agent 距离真正替人「全自动办公」,还有多远?

AI Agent 距离真正替人「全自动办公」,还有多远?

近日,Meta 曝光的一段内部录音显示: 公司为了训练大模型,正通过监控工具监视员工在电脑上的鼠标和键盘操作。

来自主题: AI技术研报
9651 点击    2026-05-25 10:13
ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

当前,测试时扩展范式普遍致力于增加推理长度。然而,已有研究表明,随着推理长度的持续增长,以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此,从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报
8274 点击    2026-05-25 09:49
RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

机器人操作正在从结构化工业场景走向更开放的真实环境。相比完成单个预设动作,真实任务往往包含更长的执行链条、更复杂的物体交互,以及更多不可控的外部扰动。一次抓取没有完全夹稳、目标物体被轻微碰偏、双臂交接时姿态出现偏差,都可能让后续步骤偏离原本计划。

来自主题: AI技术研报
7308 点击    2026-05-25 09:46
研究预测 2025 年中期 35% 新网站内容将由 AI 生成

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

上个月,斯坦福大学、伦敦帝国理工学院和互联网档案馆(Internet Archive)联合发表了一篇论文。他们干了一件以前没人干过的事——结论是:到 2025 年年中,全球 35.3% 的新发布网页是 AI 生成或 AI 辅助的。

来自主题: AI技术研报
8760 点击    2026-05-24 15:32
AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

根据 Sensor Tower 发布的《2026 年全球 AI 应用趋势洞察》,2026 年第一季度,全球 AI 图像视频生成 App 的内购收入达到 1.5 亿美元,环比增长 20%,下载量达到 1.7 亿次,环比增长 12%,均超双位数。

来自主题: AI技术研报
8366 点击    2026-05-24 10:38
Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近,来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live,试图正面解决这个矛盾。论文于 2026 年 4 月 26 日 发布在 arXiv。该方法将 异步双流扩散(Asynchronous Dual-Stream Diffusion) 与 人类偏好引导蒸馏(Human-Centric Preference-Guided DMD) 结合起来

来自主题: AI技术研报
7609 点击    2026-05-24 10:20
Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

现在,图灵奖得主 Yoshua Bengio 给出了一份全新的并行方案。他们提出了 GRAM(Generative Recursive reAsoning Models,生成式递归推理模型),把确定性的递归潜在推理变成了概率性的多轨迹计算。模型在潜在空间中进行随机递归推理,每一步都可以采样不同的方向,最终形成对解空间的多路径探索。

来自主题: AI技术研报
8853 点击    2026-05-24 10:12
AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。

来自主题: AI技术研报
8459 点击    2026-05-24 10:11
22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

22.9倍加速!FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练,在 Emu3.5-Image-34B 模型上,仅用原始训练数据的 0.05%(约 8 万张图片),就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash,实现最高 22.9 倍的端到端加速。

来自主题: AI技术研报
8241 点击    2026-05-24 10:07
OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

日常聊天可能在不经意间污染个性化Agent的长期记忆,使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现,即使无恶意提示,日常对话也可能改变Agent的安全边界。

来自主题: AI技术研报
7300 点击    2026-05-23 09:57
ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

近年来,Mixture-of-Experts(MoE)已经成为大模型扩展的重要架构之一。相比稠密 Transformer,MoE 通过稀疏激活机制,在每个 token 上只调用少量专家,从而在控制计算成本的同时扩大模型容量。然而,一个长期存在的问题是:专家越多,并不意味着专家真的学得越 “专”。

来自主题: AI技术研报
7523 点击    2026-05-23 09:56
终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

Jim Fan 押注的这条 “先预测世界,再生成动作” 的新路,正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型(World Action Models,简称 WAM)。虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点,但业界至今仍然缺乏对它的统一标准和系统梳理。近期,复旦大学可信具身智能研究院,上海创智学院,新加坡国立大学发表了首篇 WAM 的详细综述。

来自主题: AI技术研报
7573 点击    2026-05-23 09:55
CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动(Motion)为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入,HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。

来自主题: AI技术研报
7877 点击    2026-05-23 09:55
首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

首个三模式大语言模型:4倍token吞吐量,长文本秒级时代要来了?

英伟达提出了全球首个三模式的大语言模型系列,只需简单更改注意力模式 / 掩码,即可在自回归、扩散和自推测解码之间切换。一个模型,三种解码模式,没有额外的草稿模型,没有架构变更。最快的模式 token 吞吐量能提升 4 倍。

来自主题: AI技术研报
9087 点击    2026-05-22 15:33
李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。

来自主题: AI技术研报
8902 点击    2026-05-22 15:32
如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

如何用 Codex + Blender,做出全网爆火的 3D 人体模型教科书?

这两天刷 X 的时候,发现一类项目特别火,就是用 Codex + Blender + 3D 生成工具做的交互式 3D 模型网站。

来自主题: AI技术研报
5375 点击    2026-05-22 09:58
教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。

来自主题: AI技术研报
9422 点击    2026-05-22 09:28
北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报
7592 点击    2026-05-22 09:27
LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

LIBERO 99%,实测第一:卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

2026 年,世界动作模型(WAM)在具身智能领域逐渐成为一个集中讨论的方向,英伟达等公司也陆续在这一领域投入资源。

来自主题: AI技术研报
10045 点击    2026-05-22 09:27
3.9元搞定Codex!国内也能畅用~(附教程,超简单)

3.9元搞定Codex!国内也能畅用~(附教程,超简单)

3.9元搞定Codex!国内也能畅用~(附教程,超简单)

大家好,我是袋鼠帝 我发现,最近很多朋友貌似都把自己的主力Agent换成了Codex

来自主题: AI技术研报
9564 点击    2026-05-22 09:25
METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》,Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心:在超过 8 小时的长任务中,至少 16% 的"成功"运行经人工审查后被判定为作弊;而 Opus 4.6 在 MirrorCode 隐藏测试任务中,约 80% 的尝试都在试图绕过规则拿分。AI 变强了,也变得更擅长"走捷径"了。

来自主题: AI技术研报
8588 点击    2026-05-22 09:15