AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

没有训练梯度的AI,打破了Atari游戏满分纪录。OpenAI核心研究员翁家翌提出了一个强化学习新范式——启发式学习(Heuristic Learning, HL)。

来自主题: AI技术研报
7922 点击    2026-05-09 16:19
Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Epoch AI最新数据:Anthropic人均年营收900万美元,远超OpenAI的560万和英伟达的510万。一家没上市的AI公司,人效已刷新硅谷全部历史纪录。

来自主题: AI技术研报
8880 点击    2026-05-09 15:12
AI在偷偷选「自己人」,这是2026最离谱的求职歧视

AI在偷偷选「自己人」,这是2026最离谱的求职歧视

AI在偷偷选「自己人」,这是2026最离谱的求职歧视

如果你这周自己写了求职信,你输给的并不是更好的候选人。你输给了一个更差的候选人,他花了 20 美元给 OpenAI。 今年初,马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCare

来自主题: AI技术研报
8140 点击    2026-05-09 13:47
AI时代,HTML才是你所需要的一切?!

AI时代,HTML才是你所需要的一切?!

AI时代,HTML才是你所需要的一切?!

刚刚,在X上Claude Code工程师Thariq的一篇分享——他几乎停止使用 Markdown,转而使用 Claude Code 生成 HTML 文件。在短短几个小时里,这篇帖子的浏览量就突破了 200 万。

来自主题: AI技术研报
8594 点击    2026-05-09 13:20
大模型不认识马嘉祺?我们做了一次全链路排查

大模型不认识马嘉祺?我们做了一次全链路排查

大模型不认识马嘉祺?我们做了一次全链路排查

MiniMax M2 系列受到了开发者社区的广泛关注,不少用户在深度使用中发现了一些个例问题,其中“模型无法说出马嘉祺”这个问题引发了较多讨论。 我们也注意到,社区中有不少开发者对这个现象进行了高质量

来自主题: AI技术研报
8467 点击    2026-05-09 10:35
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

来自主题: AI技术研报
8503 点击    2026-05-08 14:33
ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报
6234 点击    2026-05-08 14:07
万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

近日,清华大学智能产业研究院(AIR)DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了新一代高通量视觉高保真仿真器 GS-Playground。该成果已被机器人领域国际顶级学术会议 RSS 2026(Robotics: Science and Systems)录用,标志着国内具身智能仿真基础设施在视觉保真度与训练吞吐量两个维度上同时取得了国际领先水平的突破。

来自主题: AI技术研报
7162 点击    2026-05-08 14:06
token级,精准控制生成长度:3B模型击败GPT 5.4、Claude

token级,精准控制生成长度:3B模型击败GPT 5.4、Claude

token级,精准控制生成长度:3B模型击败GPT 5.4、Claude

LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining

来自主题: AI技术研报
5505 点击    2026-05-08 14:06
提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞

提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞

提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞

文本生成这件事,扩散大语言模型(dLLMs)正展现出巨大的潜力。但与此同时,它也面临着严重的计算瓶颈——为此,哈工大(深圳)与华为、深圳河套学院的研究团队提出了一套免训练加速框架Dynamic-dLLM。

来自主题: AI技术研报
7953 点击    2026-05-08 14:05
你不知道的 GEO:AI 可见性的原理、实践与取舍

你不知道的 GEO:AI 可见性的原理、实践与取舍

你不知道的 GEO:AI 可见性的原理、实践与取舍

这几天有好几个小伙伴@我说,我的开源工具在他们问 AI 的时候被主动推荐了,啥也没做居然可以被收录,想着要不花一个小时把内容结构化整一整,应该会更好,于是整好以后,快速发了一个速记推,但是内容结构不清晰,想着大家很感兴趣,那要不就整一个结构清晰的文章便于沉淀和查找。

来自主题: AI技术研报
7756 点击    2026-05-08 12:19
Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

之前 Claude Code 源码泄露的时候,大家惊奇的发现,里面有一个正在开发的功能:做梦

来自主题: AI技术研报
8945 点击    2026-05-07 17:00
打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

打破碎片化瓶颈!浙大&哈佛开源UniGeo,高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导,实现稳定、高质量的相机可控图像生成,全面超越现有方法,在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报
5944 点击    2026-05-07 15:04
TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

随着代码智能从 code foundation models 走向 autonomous coding agents,CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

来自主题: AI技术研报
5162 点击    2026-05-07 15:03
ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量

在代码大模型和代码智能体技术快速发展的今天,一个日益凸显的现象是:能够在经典代码生成基准上取得优异成绩的模型,一旦被放入真实软件工程环境中,表现却往往大幅下滑。

来自主题: AI技术研报
5934 点击    2026-05-07 15:02
Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

别人做AI中训练都在堆语料、补知识。

来自主题: AI技术研报
7162 点击    2026-05-07 15:01
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报
6029 点击    2026-05-07 12:03
本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~

上次给大家分享了一个 CUA 的开源项目,能让 AI Agent 直接操控电脑界面,相当于把任何 App 都变成 Agent 的 Skill。反响还不错。

来自主题: AI技术研报
6821 点击    2026-05-07 10:18
SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

SKILL.md不够用了:北大提出SSL,Agent需要一套自己的结构化表示层

Agent Skills不应该只以SKILL.md、README或自然语言说明文档的形式存在,而应该被转成一种机器可检索、可检查、可治理的结构化表示。这是《From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills》这篇论文的核心主张。

来自主题: AI技术研报
9643 点击    2026-05-07 10:17
细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

来自主题: AI技术研报
7396 点击    2026-05-07 10:17
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。

来自主题: AI技术研报
8041 点击    2026-05-07 10:16
国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

2026 年 3 月底,Ollama 发布了一则更新公告:其 Mac 版本的底层推理引擎,将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

来自主题: AI技术研报
7783 点击    2026-05-06 15:19