AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

之前 Claude Code 源码泄露的时候,大家惊奇的发现,里面有一个正在开发的功能:做梦

来自主题: AI技术研报
8740 点击    2026-05-07 17:00
打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导,实现稳定、高质量的相机可控图像生成,全面超越现有方法,在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报
5838 点击    2026-05-07 15:04
TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

随着代码智能从 code foundation models 走向 autonomous coding agents,CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

来自主题: AI技术研报
5065 点击    2026-05-07 15:03
ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

在代码大模型和代码智能体技术快速发展的今天,一个日益凸显的现象是:能够在经典代码生成基准上取得优异成绩的模型,一旦被放入真实软件工程环境中,表现却往往大幅下滑。

来自主题: AI技术研报
5826 点击    2026-05-07 15:02
Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

别人做AI中训练都在堆语料、补知识。

来自主题: AI技术研报
7065 点击    2026-05-07 15:01
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报
5930 点击    2026-05-07 12:03
本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

上次给大家分享了一个 CUA 的开源项目,能让 AI Agent 直接操控电脑界面,相当于把任何 App 都变成 Agent 的 Skill。反响还不错。

来自主题: AI技术研报
6752 点击    2026-05-07 10:18
SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

Agent Skills不应该只以SKILL.md、README或自然语言说明文档的形式存在,而应该被转成一种机器可检索、可检查、可治理的结构化表示。这是《From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills》这篇论文的核心主张。

来自主题: AI技术研报
9575 点击    2026-05-07 10:17
细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

来自主题: AI技术研报
7336 点击    2026-05-07 10:17
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。

来自主题: AI技术研报
7975 点击    2026-05-07 10:16
国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

2026 年 3 月底,Ollama 发布了一则更新公告:其 Mac 版本的底层推理引擎,将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

来自主题: AI技术研报
7701 点击    2026-05-06 15:19
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
6885 点击    2026-05-06 14:27
开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

我发现囤Agent的Skills有瘾, 今天刚装了一大堆同类Skill,还没用熟就想提前知道这类里最好的到底是哪一个。转头又发现某个佬推荐了自留的20个Skills,回回路过我都忍不住点进去看。

来自主题: AI技术研报
5197 点击    2026-05-06 09:50
OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

Realtime API 是 OpenAI 的实时语音交互接口,在 24 年的 DevDay 首次亮相,当时还是 beta,调用贵到离谱,音频输出 200 刀/百万 token:OpenAI 凌晨发布:Realtime 实时多模态 API,及其他

来自主题: AI技术研报
9295 点击    2026-05-06 09:49
SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

如果您经常用Claude Code、OpenCode、OpenClaw这类Agent框架,大概率会遇到一种不稳定现象:同一个Skills,用Claude能跑,换成Qwen就不行了;在Claude Code里稳定的流程,换到OpenClaw可能输出格式崩掉;在作者环境里正常的脚本,到了自己机器上可能因为缺依赖进入反复报错。

来自主题: AI技术研报
10000 点击    2026-05-06 09:08
我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

真的,你有过这种时刻吗。

来自主题: AI技术研报
8210 点击    2026-05-06 09:07
CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报
10004 点击    2026-05-06 09:07
Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。

来自主题: AI技术研报
6039 点击    2026-05-06 09:06
非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

2026年,一群AI研究者给模型制造了毒品。 没错,论文中就叫毒品——AI Drugs。 他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

来自主题: AI技术研报
8837 点击    2026-05-05 22:19
顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

Google DeepMind再次血洗数学圈!700个地狱级难题被丢进Gemini的熔炉,结果让数学家集体破防:这哪是证明,这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI,还砸烂了人类所有的优越感。

来自主题: AI技术研报
6509 点击    2026-05-05 09:59
UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出的Combee,正是为此而来。它把Prompt Learning从低并发、顺序式更新,推进到高并发、分布式经验聚合,并已在ACE和GEPA中完成验证。

来自主题: AI技术研报
8033 点击    2026-05-05 09:48