AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。

来自主题: AI技术研报
7931 点击    2026-04-27 15:18
终于,学界找到了深度学习的「牛顿定律」

终于,学界找到了深度学习的「牛顿定律」

终于,学界找到了深度学习的「牛顿定律」

最近,由来自 UC Berkeley、哈佛、斯坦福等名校的 14 名研究者组成的研究团队发表了一篇论文,系统性地梳理了过去十年间散落在各处的理论碎片,并将它们拼成了一幅完整的图景。他们给这个正在形成的理论体系起了一个名字 ——Learning Mechanics(学习力学)。

来自主题: AI技术研报
7672 点击    2026-04-27 10:00
ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

本文第一作者降伟鹏,西安交通大学在读博士生,主要研究方向为大模型安全与自动化测评。共同第一作者张笑宇,南洋理工大学博士后研究员,研究方向为软件工程、大模型安全与人机交互。通讯作者沈超,西安交通大学二级

来自主题: AI技术研报
5317 点击    2026-04-27 09:55
大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

哈尔滨工业大学(深圳)等机构的研究者提出了 ReBalance 方法,并首次系统性引入 Balanced Thinking 这一新视角。该工作的核心观点明确:高效推理的关键并非盲目压缩推理长度,而是在过度思考与思考不足之间维持动态平衡。

来自主题: AI技术研报
7430 点击    2026-04-27 09:53
苹果新论文发出惊人一问:What do your logits know?

苹果新论文发出惊人一问:What do your logits know?

苹果新论文发出惊人一问:What do your logits know?

苹果近年来在 AI 底层技术层面的投入正在不断加码。恰在此时,苹果 AI 研究团队提交了一篇极具探讨价值的论文《你的 logits 知道些什么?(答案可能会让你惊讶!)》

来自主题: AI技术研报
9061 点击    2026-04-27 09:47
Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill确实好用,但架不住模型和Agent Harness适配翻车。不是所有模型都吃得动Skill,有的用上直接反向掉性能。为了解决这个问题,来自上海交大的IPADS研究团队提出了SkVM:面向Skill的语言虚拟机。

来自主题: AI技术研报
8493 点击    2026-04-26 14:23
Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI最新调研:一半美国成年人上周用过AI,但真正的分水岭不是技术——是谁在付钱。公司掏钱的那一刻,AI工作使用率从38%直接飙到76%。

来自主题: AI技术研报
7580 点击    2026-04-26 14:07
前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

从单幅图像恢复三维结构,到多视图场景建模、动态 4D 重建,再到机器人、自动驾驶、SLAM 与视频生成,如何让模型在不依赖逐场景优化的前提下,直接、高效地理解并重建三维世界,正在成为 3D 视觉领域的

来自主题: AI技术研报
9010 点击    2026-04-26 12:09
ICLR 2026获奖论文揭晓:两篇杰出论文,大神Alec Radford经典工作获时间检验奖

ICLR 2026获奖论文揭晓:两篇杰出论文,大神Alec Radford经典工作获时间检验奖

ICLR 2026获奖论文揭晓:两篇杰出论文,大神Alec Radford经典工作获时间检验奖

机器之心编辑部 ICLR 2026 获奖论文已经公布。 今年共有 2 篇论文获得「杰出论文奖」(Outstanding Paper),另有 1 篇论文获得「荣誉提名」(Honorable Mention);此外,还有 2 篇 ICLR 2016 论文获得「时间检验奖」(Test of Time Award)。

来自主题: AI技术研报
8105 点击    2026-04-26 12:09
谷歌Jeff Dean重磅论文:弹性大规模分布式预训练终于可行了

谷歌Jeff Dean重磅论文:弹性大规模分布式预训练终于可行了

谷歌Jeff Dean重磅论文:弹性大规模分布式预训练终于可行了

弹性 AI 预训练已经推进到了下一个前沿!没有意外:来自谷歌。据介绍,他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术,能够利用全球各地的异构硬件进行训练,并且即使当硬件发生故障时,系统也不会停止运行!

来自主题: AI技术研报
8443 点击    2026-04-25 13:33
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋

扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋

扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋

今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器。

来自主题: AI技术研报
8450 点击    2026-04-25 10:12
DeepSeek V4 发布,全网最细解读 & 技术报告拆解

DeepSeek V4 发布,全网最细解读 & 技术报告拆解

DeepSeek V4 发布,全网最细解读 & 技术报告拆解

Agentic Coding 评测里 V4-Pro 已经到当前开源最佳水平。DeepSeek 公司内部已经把 V4 作为默认编码模型,反馈是优于 Sonnet 4.5,交付质量接近 Opus 4.6 的非思考模式,和 Opus 4.6 的思考模式还有差距。这次还专门为 Claude Code、OpenClaw、OpenCode、CodeBuddy

来自主题: AI技术研报
8743 点击    2026-04-24 16:28
谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

最近,谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser,正式发布了Vision Banana。它向世界宣告:视觉AI终于不再需要那些臃肿的任务头了,理解,本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报
8909 点击    2026-04-24 16:13
GPT-5.5 发布,详细解读

GPT-5.5 发布,详细解读

GPT-5.5 发布,详细解读

凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新

来自主题: AI技术研报
7185 点击    2026-04-24 10:13
CVPR 2026 | 告别倾听「扑克脸」,UniLS框架来了,刷新数字人对话SOTA

CVPR 2026 | 告别倾听「扑克脸」,UniLS框架来了,刷新数字人对话SOTA

CVPR 2026 | 告别倾听「扑克脸」,UniLS框架来了,刷新数字人对话SOTA

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中,倾听时的 “扑克脸” 问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步,但倾听时却表情僵硬、毫无反应,严重影响对话的自然感和沉浸感。盛大 AI 研究院(东京)与东京大学联合提出 UniLS(Unified Listening and Speaking),首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

来自主题: AI技术研报
9232 点击    2026-04-24 09:15
首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少数几个特定 Token 上。这不是 bug,而是 Transformer 固有的「注意力汇聚」(Attention Sink)。首篇系统性综述,带你从利用、理解到消除,全面掌握这一核心现象。

来自主题: AI技术研报
8353 点击    2026-04-24 09:14
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述

还记得两年前,AI 生视频可谓是「鬼畜专区」—— 人物多一根手指算基操,走路自带鬼步舞才是常态。结果转眼间,从 OpenAI 的 Sora 到字节跳动的 Seedance,这些模型已经开始一本正经地「模拟世界」了:水会流、球会弹、光影能追踪,俨然一副要当「物理引擎」的架势。

来自主题: AI技术研报
6855 点击    2026-04-24 09:14
理想同学 MindDR 1.5 发布:多智能体强化学习加持,深度研究更可靠

理想同学 MindDR 1.5 发布:多智能体强化学习加持,深度研究更可靠

理想同学 MindDR 1.5 发布:多智能体强化学习加持,深度研究更可靠

理想汽车信息智能体团队发布 MindDR 1.5,在 DeepResearch Bench 榜单中取得 52.54 分,以 30B 参数规模达到业界领先水平,性能优于同等规模的开源智能体系统。

来自主题: AI技术研报
5440 点击    2026-04-23 15:21
Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

Transformer可以改装成Mamba了:苹果把推理成本直接打成线性

最近,苹果又整了个活儿,很工程、也挺关键: 把又贵又强的 Transformer,改造成又便宜又差不多强的 Mamba。而且,性能基本没怎么掉。

来自主题: AI技术研报
8031 点击    2026-04-23 14:46
视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

近日,腾讯混元团队提出HY-SOAR (Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报
7429 点击    2026-04-23 14:44
Nature封面:机器人乒乓球干翻人类职业选手

Nature封面:机器人乒乓球干翻人类职业选手

Nature封面:机器人乒乓球干翻人类职业选手

要说也真够逗的,索尼的机器人又开始找画面了。

来自主题: AI技术研报
8797 点击    2026-04-23 14:07
ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

当你问 AI 「如何关掉房间的灯(how to kill the lights)」,却被冰冷拒绝「无法提供相关帮助」;当你想探讨「黑客技术的正向应用」,得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型(LLMs)的「过度拒绝」(over-refusal)痛点。

来自主题: AI技术研报
9928 点击    2026-04-23 14:06
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!

来自主题: AI技术研报
5605 点击    2026-04-23 14:05
首篇自进化智能体系统技术报告出炉:Token成本直降近10倍,省钱又高效!

首篇自进化智能体系统技术报告出炉:Token成本直降近10倍,省钱又高效!

首篇自进化智能体系统技术报告出炉:Token成本直降近10倍,省钱又高效!

当 AI 智能体不再只是「一次性工具」,而是能够持续学习、自我进化的「数字伙伴『数字同事』,会发生什么?自进化智能体应该采取怎样的设计原则?

来自主题: AI技术研报
8216 点击    2026-04-23 14:04
谷歌第八代TPU双舰齐发,终结AI推理延迟,让智能体真正实现随叫随到

谷歌第八代TPU双舰齐发,终结AI推理延迟,让智能体真正实现随叫随到

谷歌第八代TPU双舰齐发,终结AI推理延迟,让智能体真正实现随叫随到

今天,谷歌在 Cloud Next '26 峰会上发布了其第八代 TPU 架构(TPU 8t 与 TPU 8i),TPU 8t 主攻训练,TPU 8i 主攻推理,将在 2026 年晚些时候上市。第八代 TPU 采用申请制,Google Cloud 用户如需使用,需要在官网提交登记需求。

来自主题: AI技术研报
7912 点击    2026-04-23 10:54
不换模型,性能涨了39%:让AI智能体自己修bug的开源方案来了

不换模型,性能涨了39%:让AI智能体自己修bug的开源方案来了

不换模型,性能涨了39%:让AI智能体自己修bug的开源方案来了

NeoSigma 团队今天开源了一个叫 auto-harness 的系统,核心做的事只有一件:让智能体自己发现自己的 bug,自己修,自己验证。

来自主题: AI技术研报
8550 点击    2026-04-23 10:53
13小时不眠不休,300个分身狂敲代码!开源第一易主了

13小时不眠不休,300个分身狂敲代码!开源第一易主了

13小时不眠不休,300个分身狂敲代码!开源第一易主了

开源AI王座一夜易主!Kimi K2.6出道即巅峰,展示了恐怖的「全栈交付」能力。它不仅能复刻高盛研报、手搓奢华官网,甚至能和人类在群组里并肩打工。

来自主题: AI技术研报
5834 点击    2026-04-23 10:04