AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

SwarmFlow来了!openJiuwen开创蜂群可控协同新范式

AI Agent 正在从 "单兵作战" 走向 "团队协作"—— 让多个 Agent 分工配合,去完成单个 Agent 难以独立扛下来的复杂任务,也是近期最受关注的方向之一。

来自主题: AI技术研报
9587 点击    2026-06-10 15:16
Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

Claude 最强模型 Fable 5 全解析:Mythos 级别的怪物

今天凌晨,Anthropic 发布新模型 Fable 5,毫无疑问的,也是当下的最强模型

来自主题: AI技术研报
9764 点击    2026-06-10 15:16
扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

扩散模型里的噪声,原来还有这样的作用:DRDD重新定义统一图像翻译

在图像到图像翻译(Image-to-Image Translation, I2I)这个任务上,扩散模型过去几年几乎形成了一套默认逻辑:先把输入图像和噪声混合,再一步步去噪,把目标图像 “还原” 出来。

来自主题: AI技术研报
9269 点击    2026-06-10 15:15
OneReason:当推荐系统学会思考

OneReason:当推荐系统学会思考

OneReason:当推荐系统学会思考

推荐系统的过去十年,本质是把 "用户 - 物料" 的统计共现挖到极致 —— 从协同过滤、深度模型,到生成式 OneRec 系列,每一代都在让 "记忆" 更精细、参数更大、序列更长,也让 Scaling 这件事在工业级推荐系统上跑通,持续释放算力红利。

来自主题: AI技术研报
6059 点击    2026-06-10 14:43
当线性注意力学会「写入前思考」:并行化的多步记忆写入

当线性注意力学会「写入前思考」:并行化的多步记忆写入

当线性注意力学会「写入前思考」:并行化的多步记忆写入

Transformer 依托强大的建模能力和 Scaling 效率在推荐领域被广泛应用于超长序列建模和生成式推荐等方向,

来自主题: AI技术研报
5790 点击    2026-06-10 14:43
RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。

来自主题: AI技术研报
5919 点击    2026-06-10 14:40
Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读

过去两年,大模型写代码已经不再新鲜。从代码补全到 GitHub issue 修复,从竞赛编程到仓库级软件工程,人们习惯用一个简单标准评估 coding agent:代码能不能写对?测试能不能通过?

来自主题: AI技术研报
7990 点击    2026-06-10 10:02
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了

一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。

来自主题: AI技术研报
7370 点击    2026-06-09 14:57
Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

当前,Coding Agents 在软件工程领域一路高歌猛进,科学家们看到此场景,也不禁寄予厚望:AI 智能体何时能以同样的速度,帮人类攻克药物设计、病毒监控与生物学建模的重重难关?

来自主题: AI技术研报
9502 点击    2026-06-09 14:53
280美元一单!1000名工程师教Claude写好代码

280美元一单!1000名工程师教Claude写好代码

280美元一单!1000名工程师教Claude写好代码

Anthropic自家工程师早已基本不写代码了,却280美元一个任务,花钱请约1000名外部工程师,手把手教Claude Code写出好代码。喂养前沿模型的,终究还是人。

来自主题: AI技术研报
6495 点击    2026-06-09 14:33
Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³,首次揭示了三维视觉学习的 Bitter Lesson:标准的视觉语言模型 + scale 数据就是最简单有效的范式,针对特定任务的架构、损失函数以及数据增强的设计,甚至是 regression 的 formulation,均不是三维视觉学习的必要条件。

来自主题: AI技术研报
6125 点击    2026-06-09 14:31
我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

我以为宠物翻译器是纯扯淡,直到我翻了几篇论文

第一次看到杭州某家公司的宠物翻译器报道时,我的反应很直接:这不就是新一代智商税吗?

来自主题: AI技术研报
8210 点击    2026-06-09 14:30
ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

在交互式虚拟世界和具身智能快速发展的今天,高质量 3D 资产已经不再只是 “看起来像” 就足够。一个柜门不仅要有柜门的外观,还需要知道绕哪条轴旋转;一个按钮不仅要有按钮的形状,还需要具备 “按下 / 弹起” 的状态;一个抽屉不仅要有完整几何,还需要拥有滑动方向、运动范围、材质和质量等物理属性。该研究已被 ICML 2026 接收。

来自主题: AI技术研报
6690 点击    2026-06-09 14:08
ICML 2026|文生图模型也会「忘词」?复旦创智等提出Prompt Reinjection,无需训练提升文生图指令遵循能力

ICML 2026|文生图模型也会「忘词」?复旦创智等提出Prompt Reinjection,无需训练提升文生图指令遵循能力

ICML 2026|文生图模型也会「忘词」?复旦创智等提出Prompt Reinjection,无需训练提升文生图指令遵循能力

近年来,文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image,扩散模型已经能够生成高质量图像,也能处理越来越复杂的文本提示。

来自主题: AI技术研报
9083 点击    2026-06-09 10:02
解锁Agent Swarm新潜力,openJiuwen又一力作:多智能体流网络

解锁Agent Swarm新潜力,openJiuwen又一力作:多智能体流网络

解锁Agent Swarm新潜力,openJiuwen又一力作:多智能体流网络

多智能体协作对于解决复杂问题虽然具有巨大优势,但是其架构本质上易出现错误传播,因为由不正确的工作流生成或单智能体幻觉输出引起的错误会沿着协作链蔓延,影响最终结果。

来自主题: AI技术研报
9730 点击    2026-06-09 09:59
32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一

32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一

32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一

形式化定理证明,一直是LLM公认最严苛的推理试金石,每一步推导都必须通过Lean 4内核的机器验证。

来自主题: AI技术研报
7310 点击    2026-06-09 09:37
Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析

Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析

Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析

一年前,行业还在为“从自动补全到 Agent”的进化感到兴奋。然而一年过去,我们不难发现单纯靠“Vibe Coding”和“Prompt 调优”,面对非确定性模型带来的风险和成本问题,显然无法撑起企业级软件开发。

来自主题: AI技术研报
6404 点击    2026-06-09 09:37
一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

清华大学提出一种新型物理对抗方法,利用特殊服装同时干扰可见光和热成像检测。这种服装通过非重叠设计和三维建模优化,可有效躲避RGB-T检测器,促进系统安全性研究。

来自主题: AI技术研报
7579 点击    2026-06-09 09:37
刚刚,Mind Lab开源V1系列模型Preview,749B参数,专为Agent 后训练

刚刚,Mind Lab开源V1系列模型Preview,749B参数,专为Agent 后训练

刚刚,Mind Lab开源V1系列模型Preview,749B参数,专为Agent 后训练

过去一个多月,大模型圈依旧热闹。从 GPT-5.5、DeepSeek V4 到 Claude Opus 4.8,后训练正在成为模型能力提升的关键引擎。

来自主题: AI技术研报
5611 点击    2026-06-08 15:29
一个8×8矩阵,让大模型「记住」长对话:Mind Lab联合NTU、复旦推出δ-mem,参数仅0.12%

一个8×8矩阵,让大模型「记住」长对话:Mind Lab联合NTU、复旦推出δ-mem,参数仅0.12%

一个8×8矩阵,让大模型「记住」长对话:Mind Lab联合NTU、复旦推出δ-mem,参数仅0.12%

不扩上下文窗口、不换骨干架构、不做全参数微调 —— 只需要一个 8×8 的在线状态矩阵,就能让冻结的 Transformer 拥有真正的长期记忆。

来自主题: AI技术研报
9576 点击    2026-06-08 14:50
废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

北大彭宇新团队提出「美学照片重构」新任务,从摄影教学视频中自动构建数据集AesRecon,并开发两阶段模型AesFormer,通过优化构图、视角与人物姿态,提升照片的美感与艺术表现力。

来自主题: AI技术研报
9778 点击    2026-06-08 14:49
连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

在具身智能最难的泛化问题上,他们连续拿出顶会级成果,并把它们沉淀进其创新 VLOA 大模型,推动机器人迈向广阔现实。

来自主题: AI技术研报
8837 点击    2026-06-08 10:45
诺奖得主联手Claude,40轮对话证出12年物理猜想

诺奖得主联手Claude,40轮对话证出12年物理猜想

诺奖得主联手Claude,40轮对话证出12年物理猜想

一道悬了12年没人证出来的物理猜想,诺贝尔物理学奖得主Giorgio Parisi把它交给了Claude,模型几乎自己推出了完整证明。

来自主题: AI技术研报
7159 点击    2026-06-08 10:13