AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

在具身智能最难的泛化问题上,他们连续拿出顶会级成果,并把它们沉淀进其创新 VLOA 大模型,推动机器人迈向广阔现实。

来自主题: AI技术研报
8682 点击    2026-06-08 10:45
诺奖得主联手Claude,40轮对话证出12年物理猜想

诺奖得主联手Claude,40轮对话证出12年物理猜想

诺奖得主联手Claude,40轮对话证出12年物理猜想

一道悬了12年没人证出来的物理猜想,诺贝尔物理学奖得主Giorgio Parisi把它交给了Claude,模型几乎自己推出了完整证明。

来自主题: AI技术研报
7014 点击    2026-06-08 10:13
ICML 2026|让 Agent 真正协同作战:GoS 为多智能体推理构建共享信念状态

ICML 2026|让 Agent 真正协同作战:GoS 为多智能体推理构建共享信念状态

ICML 2026|让 Agent 真正协同作战:GoS 为多智能体推理构建共享信念状态

近年来,大语言模型在数学、代码等任务上的表现不断刷新上限,但到了医疗诊断、故障排查这类真实世界任务里,真正困难的是让多个智能体在不确定的动态环境中持续协作推理。

来自主题: AI技术研报
9311 点击    2026-06-08 09:48
ICML 2026|FusionRoute:从专家路由到自我修正,一种新的多LLM协作范式

ICML 2026|FusionRoute:从专家路由到自我修正,一种新的多LLM协作范式

ICML 2026|FusionRoute:从专家路由到自我修正,一种新的多LLM协作范式

近年来,大语言模型能力的提升,已不再仅仅依赖于更大的模型规模或更多的训练数据。越来越多的研究开始探索另一条路径:通过多个专家模型的协作来完成生成任务。

来自主题: AI技术研报
9540 点击    2026-06-08 09:47
37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

6月4日,Arena.ai发布Agent Arena排行榜,用373,431次真实会话的数据,给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”(Net Improvement),用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好,负值说明不如随机。

来自主题: AI技术研报
8690 点击    2026-06-07 14:38
DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

近日,普林斯顿大学的研究团队发布了一篇新论文,提出了一个名为 Goedel-Architect 的智能体框架。他们用的核心模型,是国内开源大模型 DeepSeek-V4-Flash。

来自主题: AI技术研报
8013 点击    2026-06-07 10:56
大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建

大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建

大晓机器人联合南洋理工打通Physical AI全链路!PhysX-Omni补齐物理AI基建

该论文第一作者为曹子昂,研究方向主要聚焦于 3D AIGC、Physical AI 与具身智能。论文主要合作者包括来自南洋理工大学的李海天、姚润茂、洪方舟、陈昭熹,以及大晓机器人的刘英豪和潘亮。通讯作者为南洋理工大学刘子纬教授。

来自主题: AI技术研报
7978 点击    2026-06-07 10:55
CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案

CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案

CVPR 2026|LLM会写3D视觉代码吗?清华联合智源用GeoCodeBench给出答案

近日,来自清华大学智能产业研究院(AIR)的团队联合北京智源研究院(BAAI)、北京大学、南京大学等机构构建了一个基准:GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark,

来自主题: AI技术研报
8807 点击    2026-06-07 10:54
重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

早在 2023 年大模型快速发展期,哈工大张民教授立知大模型团队已开展多模态大模型驱动的视频内容创作智能体研究,并全球首发开源了电影制作智能体 FilmAgent 与动画片生成智能体 Anim-Director,受到国内外智能体研究者与文艺创作者的广泛关注。

来自主题: AI技术研报
7196 点击    2026-06-07 10:51
快手可灵提出VLM-as-Teacher:用测试时在线优化,让视频生成模型学会按规则推理

快手可灵提出VLM-as-Teacher:用测试时在线优化,让视频生成模型学会按规则推理

快手可灵提出VLM-as-Teacher:用测试时在线优化,让视频生成模型学会按规则推理

怎么让VGM学会按规则推理?过去主要有两条路。两条路,一个不动模型,一个只写文字,都没真正解决“执行”问题。为此,城大×快手可灵提出了第三条路:VLM-as-Teacher。

来自主题: AI技术研报
7440 点击    2026-06-06 09:51
超越Figure AI!全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

超越Figure AI!全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

超越Figure AI!全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

一觉睡醒,具身智能公司竟然也开始搞房地产了?!刚刚,大晓机器人联合港中文MMLab发布了一个新项目——Kairos-Homeworld,全球首个实现全屋三维生成与物体级全交互的统一框架。

来自主题: AI技术研报
7503 点击    2026-06-06 09:47
单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

来自中国科学院计算技术研究所、ETH Zurich等机构的研究者提出了Fast-SAM3D。该方法直接面向SAM3D的推理链路做训练无关加速,在最大程度保持重建质量的同时,将单对象生成提速最高2.67倍,场景生成提速最高2.01倍。

来自主题: AI技术研报
7787 点击    2026-06-06 09:45
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

OpenRouter Trending榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。

来自主题: AI技术研报
9005 点击    2026-06-05 09:55
超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。

来自主题: AI技术研报
5313 点击    2026-06-05 09:53
「这可能是人类写的最后一篇论文」Stanford、Michigan、CMU 等 37 位学者联手:把论文从 PDF 改写成 AI 能直接执行的研究包

「这可能是人类写的最后一篇论文」Stanford、Michigan、CMU 等 37 位学者联手:把论文从 PDF 改写成 AI 能直接执行的研究包

「这可能是人类写的最后一篇论文」Stanford、Michigan、CMU 等 37 位学者联手:把论文从 PDF 改写成 AI 能直接执行的研究包

我们今天以 PDF 写论文的方式,已经持续了三百多年。然而论文其实是把一段混乱反复、充满试错的真实研究,讲成一个干净利落、足以服人的完美故事。

来自主题: AI技术研报
9538 点击    2026-06-05 09:25
微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

训练大模型时,工程师绝对不会指望网络做一次前向传播就能收敛。它需要数据喂养、Batch切分、学习率控制、验证集筛选以及优化器状态的迭代试错。

来自主题: AI技术研报
9694 点击    2026-06-05 09:13
谷歌Gemma 4 12B震撼发布!全球下载破1.5亿,16G轻薄本封神

谷歌Gemma 4 12B震撼发布!全球下载破1.5亿,16G轻薄本封神

谷歌Gemma 4 12B震撼发布!全球下载破1.5亿,16G轻薄本封神

刚刚,谷歌扔出Gemma 4 12B大杀器!16G轻薄本就能全离线流畅跑通,性能直逼26B巨兽,全体开发者惊呼太震撼了,平民级本地AI封神之作降临。硬核实测速来看!

来自主题: AI技术研报
7254 点击    2026-06-04 17:03
刚刚,李飞飞亲自下场定义世界模型

刚刚,李飞飞亲自下场定义世界模型

刚刚,李飞飞亲自下场定义世界模型

世界模型火,火到都有点乱了。

来自主题: AI技术研报
10152 点击    2026-06-04 17:02
Anthropic内部95%业务分析交给Claude,秘诀竟然不在更强模型

Anthropic内部95%业务分析交给Claude,秘诀竟然不在更强模型

Anthropic内部95%业务分析交给Claude,秘诀竟然不在更强模型

都以为让AI查数据省事,结果它答得漂亮你却不敢信。Anthropic最近说这事有解了,靠的是一套和代码无关的「笨功夫」。

来自主题: AI技术研报
6049 点击    2026-06-04 16:39
一个GPT Plus会员的钱,够机器人跑一个月世界模型了

一个GPT Plus会员的钱,够机器人跑一个月世界模型了

一个GPT Plus会员的钱,够机器人跑一个月世界模型了

真没想到啊!物理AI的账单,有一天竟然能和大模型一个价。

来自主题: AI技术研报
6047 点击    2026-06-04 16:39
首次系统定义「Token经济学」,浙大&阿里联合发布大模型Agent资源分配新范式

首次系统定义「Token经济学」,浙大&阿里联合发布大模型Agent资源分配新范式

首次系统定义「Token经济学」,浙大&阿里联合发布大模型Agent资源分配新范式

当大模型 Agent 从实验室加速走向金融、医疗、代码开发等高价值场景,一个隐秘却致命的瓶颈正在浮现:Token 的指数级消耗正引发算力、协作与安全的系统性危机。传统 “堆算力、加参数” 的线性优化已触及天花板,我们该如何在 “输出质量” 与 “经济成本” 之间找到可持续的最优解?

来自主题: AI技术研报
8021 点击    2026-06-04 16:38
规避文献幻觉,准确率提升13.2%!细粒度检索智能体 | ACL'26

规避文献幻觉,准确率提升13.2%!细粒度检索智能体 | ACL'26

规避文献幻觉,准确率提升13.2%!细粒度检索智能体 | ACL'26

为解决科研中对单篇文献深度解析的需求,佐治亚大学团队提出IntrAgent,专注单篇内容,避免大模型幻觉。通过段落排序与迭代阅读机制,精准提取实验细节与元数据。

来自主题: AI技术研报
9995 点击    2026-06-04 16:38
AI短剧的Harness模式,LuxReal跑通了。

AI短剧的Harness模式,LuxReal跑通了。

AI短剧的Harness模式,LuxReal跑通了。

一直有在关注的一个 AI 短剧工具最近终于上线了,那就是群核科技的 LuxReal 短剧版。

来自主题: AI技术研报
6271 点击    2026-06-04 09:14
RSS 2026|蚂蚁灵波提出首个自回归因果世界模型,50条数据解锁通用机器人操控

RSS 2026|蚂蚁灵波提出首个自回归因果世界模型,50条数据解锁通用机器人操控

RSS 2026|蚂蚁灵波提出首个自回归因果世界模型,50条数据解锁通用机器人操控

赋予机器人物理理解和预测能力是通用操作的关键。蚂蚁灵波等机构提出的 LingBot-VA 试图将视频帧预测与动作推理统一起来,让机器人通过自回归扩散框架学会“一边思考一边行动”。

来自主题: AI技术研报
10212 点击    2026-06-04 09:13
Vector Lakebase对比Lakebase以及向量数据库,如何选型?

Vector Lakebase对比Lakebase以及向量数据库,如何选型?

Vector Lakebase对比Lakebase以及向量数据库,如何选型?

这篇文章想回答几个大家更关心的基础问题:Vector Lakebase 能解决你的什么问题,什么场景下用它最合适,如何用好Vector Lakebase 。

来自主题: AI技术研报
9622 点击    2026-06-04 08:39
Agent记忆框架怎么做才靠谱?UC Berkeley MemFai测穿4款顶尖记忆系统,向量库不是唯一答案

Agent记忆框架怎么做才靠谱?UC Berkeley MemFai测穿4款顶尖记忆系统,向量库不是唯一答案

Agent记忆框架怎么做才靠谱?UC Berkeley MemFai测穿4款顶尖记忆系统,向量库不是唯一答案

过去半年,几乎所有Agent框架都在补长期记忆能力。最常见的做法,是给系统接一个向量数据库,把历史对话、用户偏好、项目经验、工具调用结果、失败案例都存进去。看起来,只要把“记忆”这块补上,Agent就能从一次性对话工具变成长期协作伙伴。

来自主题: AI技术研报
8457 点击    2026-06-04 08:38