AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。因此,研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报
5514 点击    2026-05-18 15:30
LLM助力突破尘封60年数学猜想!北大王立威团队大幅刷新斯坦纳比下界

LLM助力突破尘封60年数学猜想!北大王立威团队大幅刷新斯坦纳比下界

LLM助力突破尘封60年数学猜想!北大王立威团队大幅刷新斯坦纳比下界

近期,LLM 已经在 IMO 上取得了很好的成绩,在一些研究级数学上(如短程证明、组合构造)也有所进展。但如果真正让 LLM 去处理提出数十年的数学猜想,结果会是如何?

来自主题: AI技术研报
5187 点击    2026-05-18 15:29
信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

在联邦学习中,如何同时兼顾模型性能、数据隐私和通信开销,是一个亟需解决的挑战。

来自主题: AI技术研报
9825 点击    2026-05-18 15:29
ICML 2026 | 华为GTS提出AI训练数据新方法,Amazon/Google作者团队「光速跟进」:难度自适应训练正在成为新范式

ICML 2026 | 华为GTS提出AI训练数据新方法,Amazon/Google作者团队「光速跟进」:难度自适应训练正在成为新范式

ICML 2026 | 华为GTS提出AI训练数据新方法,Amazon/Google作者团队「光速跟进」:难度自适应训练正在成为新范式

在大模型后训练中,数据不再只是 “越多越好”,而是要像人类学习一样,动态选择最合适难度的样本。华为提出的 EDCO 方法,将样本难度估计与动态课程编排引入领域大模型微调;数月后,由 Rutgers、Amazon、Google 等作者参与的 DARE 论文即引用 EDCO,并将其作为难度感知强化学习训练的重要对比基线。

来自主题: AI技术研报
5253 点击    2026-05-18 15:29
DAG革新时间序列预测,代码、数据、排行榜全开源 | ICML'26

DAG革新时间序列预测,代码、数据、排行榜全开源 | ICML'26

DAG革新时间序列预测,代码、数据、排行榜全开源 | ICML'26

DAG框架利用时间与通道双重相关网络,有效整合历史与未来外生变量信息,提升时间序列预测准确性。通过发现并注入相关关系,充分利用未来协变量,显著优于现有方法。

来自主题: AI技术研报
6693 点击    2026-05-18 15:28
ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略

ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略

ICML 2026 |让大模型边想边说:这篇文章把「何时开口」变成可学习策略

用过推理型大模型的人,大概率都熟悉这种体验:模型似乎在认真思考,但屏幕上长时间没有真正有用的内容;如果让它一开始就输出,又很容易出现仓促判断,后面的推理还要被早期错误牵着走。

来自主题: AI技术研报
9479 点击    2026-05-18 15:27
「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

「具身大一统」不是口号:北京人形再度登顶WorldArena,拿下双冠王

最近,全球的网民都化身「监工」,围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时,不间断地分拣包裹。

来自主题: AI技术研报
8207 点击    2026-05-18 10:24
Agent Skills的表示、获取、检索和进化看这一篇综述就清楚了|香港中文大学最新

Agent Skills的表示、获取、检索和进化看这一篇综述就清楚了|香港中文大学最新

Agent Skills的表示、获取、检索和进化看这一篇综述就清楚了|香港中文大学最新

早在2024年,人们还倾向于给Agent提供海量的工具(例如通过MCP协议连接的API、搜索引擎、代码解释器等)。但是,“拥有工具”并不等于“知道如何使用工具”。当任务变得复杂且长周期时,要求Agent每次都从头开始推理“该用哪个工具、何时用、怎么组合、出错怎么办”,会导致系统极度脆弱、延迟极高且不可靠。

来自主题: AI技术研报
6219 点击    2026-05-18 09:55
当SFT遇上RL:基于样本学习阶段的动态策略优化机制

当SFT遇上RL:基于样本学习阶段的动态策略优化机制

当SFT遇上RL:基于样本学习阶段的动态策略优化机制

过去一段时间里,在围绕大模型推理能力增强的研究中,SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快,能高效吸收高质量推理数据;后者更具探索性,有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报
6524 点击    2026-05-18 09:53
Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

近日,Meta AI 与香港中文大学颠覆性提出了一种全新的视觉推理范式 ATLAS,不用外部工具,不显式生成中间图像,没有视觉监督信号,只用一个离散 word,首次颠覆性地代替 Agentic 和 Latent Visual Reasoning。

来自主题: AI技术研报
7351 点击    2026-05-17 15:07
扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

近期,专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度,让开发者能够通过丰富的Templates来精准控制模型的生成结果。

来自主题: AI技术研报
7519 点击    2026-05-17 11:14
8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

针对这一问题,上海人工智能实验室、复旦大学、上海交通大学团队提出了Thoth:一个面向生物实验protocol生成的科学推理模型。一句话概括:Thoth不是让模型“写得像protocol”,而是让模型按照实验逻辑,生成可解析、可评估、可执行的protocol。

来自主题: AI技术研报
7789 点击    2026-05-17 10:52
解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单:预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报
8388 点击    2026-05-16 13:34
从智能体到赛博员工,生产力智能涌现

从智能体到赛博员工,生产力智能涌现

从智能体到赛博员工,生产力智能涌现

最近一两年,AI 行业有一个很微妙的变化:大家不再满足于问 “模型会不会回答”,也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题:AI 到底能不能完全自动化接管工作区,理解个性化需求,像一个真实的人类劳动力一样,把一件事情从头到尾做完?

来自主题: AI技术研报
6356 点击    2026-05-16 13:34
从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题,来自中山大学和美团的研究团队提出了 X2SAM,一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频,还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报
7553 点击    2026-05-16 10:50
D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,

来自主题: AI技术研报
8315 点击    2026-05-16 10:44
Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。

来自主题: AI技术研报
8614 点击    2026-05-15 10:37
商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时,底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题:理解与生成,是否天生就该是两件事?

来自主题: AI技术研报
6799 点击    2026-05-15 10:36
博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

就在今天,Agentic AI工程师发现:博士80小时的科研任务,Codex不到2小时就跑完了,效率差达到了40倍!其实按照旧标准,AGI早已存在了,只是全行业都在移动球门。

来自主题: AI技术研报
9279 点击    2026-05-15 09:57
首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

具身智能正以前所未有的速度发展,VLA 模型展现出越来越强的动作和泛化能力。然而,当我们真正把 VLA 模型部署到物理世界时,一个核心挑战浮出水面:实时性。

来自主题: AI技术研报
7895 点击    2026-05-15 09:55
突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

在迈向通用人工智能(AGI)的过程中,世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力,被广泛认为是世界模型的首要前提。通常来说,一个成熟的世界模型需要具备三大核心能力:对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。

来自主题: AI技术研报
8460 点击    2026-05-14 15:03
0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈,快手技术团队在已规模化部署的工业级生成式搜索框架 OneSearch 基础上,发布了一篇系统性升级的研究论文,正式推出新一代框架 OneSearch-V2。

来自主题: AI技术研报
8640 点击    2026-05-14 14:25
ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,通过改进 rollout 策略引导模型生成更多样化的推理轨迹,将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”,在多个数学基准上同时提升准确率与语义多样性,最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main,来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报
9206 点击    2026-05-14 14:24