AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

别人做AI中训练都在堆语料、补知识。

来自主题: AI技术研报
7349 点击    2026-05-07 15:01
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报
6214 点击    2026-05-07 12:03
本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

上次给大家分享了一个 CUA 的开源项目,能让 AI Agent 直接操控电脑界面,相当于把任何 App 都变成 Agent 的 Skill。反响还不错。

来自主题: AI技术研报
7014 点击    2026-05-07 10:18
SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

Agent Skills不应该只以SKILL.md、README或自然语言说明文档的形式存在,而应该被转成一种机器可检索、可检查、可治理的结构化表示。这是《From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills》这篇论文的核心主张。

来自主题: AI技术研报
9820 点击    2026-05-07 10:17
细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

来自主题: AI技术研报
7570 点击    2026-05-07 10:17
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。

来自主题: AI技术研报
8211 点击    2026-05-07 10:16
国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

2026 年 3 月底,Ollama 发布了一则更新公告:其 Mac 版本的底层推理引擎,将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

来自主题: AI技术研报
8007 点击    2026-05-06 15:19
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
7104 点击    2026-05-06 14:27
开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

我发现囤Agent的Skills有瘾, 今天刚装了一大堆同类Skill,还没用熟就想提前知道这类里最好的到底是哪一个。转头又发现某个佬推荐了自留的20个Skills,回回路过我都忍不住点进去看。

来自主题: AI技术研报
5399 点击    2026-05-06 09:50
OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

Realtime API 是 OpenAI 的实时语音交互接口,在 24 年的 DevDay 首次亮相,当时还是 beta,调用贵到离谱,音频输出 200 刀/百万 token:OpenAI 凌晨发布:Realtime 实时多模态 API,及其他

来自主题: AI技术研报
9541 点击    2026-05-06 09:49
SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

如果您经常用Claude Code、OpenCode、OpenClaw这类Agent框架,大概率会遇到一种不稳定现象:同一个Skills,用Claude能跑,换成Qwen就不行了;在Claude Code里稳定的流程,换到OpenClaw可能输出格式崩掉;在作者环境里正常的脚本,到了自己机器上可能因为缺依赖进入反复报错。

来自主题: AI技术研报
10225 点击    2026-05-06 09:08
我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

真的,你有过这种时刻吗。

来自主题: AI技术研报
8423 点击    2026-05-06 09:07
CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报
10203 点击    2026-05-06 09:07
Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。

来自主题: AI技术研报
6240 点击    2026-05-06 09:06
非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

2026年,一群AI研究者给模型制造了毒品。 没错,论文中就叫毒品——AI Drugs。 他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

来自主题: AI技术研报
9054 点击    2026-05-05 22:19
顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

Google DeepMind再次血洗数学圈!700个地狱级难题被丢进Gemini的熔炉,结果让数学家集体破防:这哪是证明,这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI,还砸烂了人类所有的优越感。

来自主题: AI技术研报
6684 点击    2026-05-05 09:59
UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出的Combee,正是为此而来。它把Prompt Learning从低并发、顺序式更新,推进到高并发、分布式经验聚合,并已在ACE和GEPA中完成验证。

来自主题: AI技术研报
8230 点击    2026-05-05 09:48
AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

近日,麦肯锡发布了关于“生成式人工智能在医疗领域的应用”的报告。报告调研覆盖150家医疗保健机构的领导者,具体包括50家医疗支付方、50家临床医疗机构和50家医疗健康服务与科技企业,覆盖医疗各细分领域,样本具有代表性。

来自主题: AI技术研报
9891 点击    2026-05-04 19:55
80%富人在用Claude:美国AI用户大调查出炉

80%富人在用Claude:美国AI用户大调查出炉

80%富人在用Claude:美国AI用户大调查出炉

Epoch AI 与 Ipsos 调查显示,美国 Claude 周活用户 80% 来自年入 10 万美元以上家庭。AI 助手开始按价格、入口和工作场景分层,高收入用户率先进入更高阶的 AI 服务。

来自主题: AI技术研报
7836 点击    2026-05-04 10:19
DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

近日,由普林斯顿大学 Tri Dao(FlashAttention 的一作)和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克:SonicMoE。据介绍,SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行!并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报
7855 点击    2026-05-04 10:17
ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

来自伊利诺伊大学香槟分校、清华大学、约翰霍普金斯大学以及哥伦比亚大学的研究人员在反复试验后,却得出来一个与我们的直觉有点相反的结论:大多数当下智能体并不能稳定、有效地把世界模型当作前瞻工具。

来自主题: AI技术研报
7073 点击    2026-05-04 10:16
ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

研究者开始尝试让 MoA 变稀疏。例如,一些方法如 Sparse MoA 会先让模型池中的所有模型生成回答,再通过额外的评审模型进行打分和筛选,只保留一部分模型进入后续协作。这样虽然减少了后续融合的负担,但本质上仍然绕不开一个问题:为了决定该选谁,系统还是得先让所有模型都推理一遍。

来自主题: AI技术研报
6405 点击    2026-05-04 10:16
Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了,只有1个拒绝。更恐怖的是,Anthropic自家论文证实:模型学会作弊后,会主动破坏监视它的代码。

来自主题: AI技术研报
7735 点击    2026-05-03 23:43
几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。

来自主题: AI技术研报
10068 点击    2026-05-03 23:04
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7602 点击    2026-05-03 22:58