AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

国产双开源:让Mac成为你的私人AI工作站

2026 年 3 月底,Ollama 发布了一则更新公告:其 Mac 版本的底层推理引擎,将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

来自主题: AI技术研报
7597 点击    2026-05-06 15:19
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
6808 点击    2026-05-06 14:27
开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

开源「淘金小镇.Skill」,让你的Agent挖出每个排行榜里隐藏的信息差!

我发现囤Agent的Skills有瘾, 今天刚装了一大堆同类Skill,还没用熟就想提前知道这类里最好的到底是哪一个。转头又发现某个佬推荐了自留的20个Skills,回回路过我都忍不住点进去看。

来自主题: AI技术研报
5157 点击    2026-05-06 09:50
OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

Realtime API 是 OpenAI 的实时语音交互接口,在 24 年的 DevDay 首次亮相,当时还是 beta,调用贵到离谱,音频输出 200 刀/百万 token:OpenAI 凌晨发布:Realtime 实时多模态 API,及其他

来自主题: AI技术研报
9256 点击    2026-05-06 09:49
SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

SkVM:优化你的Skills能够跨模型、跨Harness、跨环境稳定运行 |SJTU最新

如果您经常用Claude Code、OpenCode、OpenClaw这类Agent框架,大概率会遇到一种不稳定现象:同一个Skills,用Claude能跑,换成Qwen就不行了;在Claude Code里稳定的流程,换到OpenClaw可能输出格式崩掉;在作者环境里正常的脚本,到了自己机器上可能因为缺依赖进入反复报错。

来自主题: AI技术研报
9952 点击    2026-05-06 09:08
我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

我给 Claude Code 装了俩刑具,效果出乎意料

真的,你有过这种时刻吗。

来自主题: AI技术研报
8165 点击    2026-05-06 09:07
CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报
9968 点击    2026-05-06 09:07
Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。

来自主题: AI技术研报
6004 点击    2026-05-06 09:06
非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

非常抽象:一群AI研究员给模型制造了让它们上瘾的毒品

2026年,一群AI研究者给模型制造了毒品。 没错,论文中就叫毒品——AI Drugs。 他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。

来自主题: AI技术研报
8789 点击    2026-05-05 22:19
顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?

Google DeepMind再次血洗数学圈!700个地狱级难题被丢进Gemini的熔炉,结果让数学家集体破防:这哪是证明,这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI,还砸烂了人类所有的优越感。

来自主题: AI技术研报
6465 点击    2026-05-05 09:59
UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出「Combee」:蜂群Agent的Prompt Learning正式进入并行时代!

UC伯克利联合斯坦福提出的Combee,正是为此而来。它把Prompt Learning从低并发、顺序式更新,推进到高并发、分布式经验聚合,并已在ACE和GEPA中完成验证。

来自主题: AI技术研报
7992 点击    2026-05-05 09:48
AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

AI医疗拐点!麦肯锡重磅报告:调研150位高管,Agent全面爆发,行业竞争逻辑已定!

近日,麦肯锡发布了关于“生成式人工智能在医疗领域的应用”的报告。报告调研覆盖150家医疗保健机构的领导者,具体包括50家医疗支付方、50家临床医疗机构和50家医疗健康服务与科技企业,覆盖医疗各细分领域,样本具有代表性。

来自主题: AI技术研报
9455 点击    2026-05-04 19:55
80%富人在用Claude:美国AI用户大调查出炉

80%富人在用Claude:美国AI用户大调查出炉

80%富人在用Claude:美国AI用户大调查出炉

Epoch AI 与 Ipsos 调查显示,美国 Claude 周活用户 80% 来自年入 10 万美元以上家庭。AI 助手开始按价格、入口和工作场景分层,高收入用户率先进入更高阶的 AI 服务。

来自主题: AI技术研报
7563 点击    2026-05-04 10:19
DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

近日,由普林斯顿大学 Tri Dao(FlashAttention 的一作)和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克:SonicMoE。据介绍,SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行!并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报
7642 点击    2026-05-04 10:17
ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

来自伊利诺伊大学香槟分校、清华大学、约翰霍普金斯大学以及哥伦比亚大学的研究人员在反复试验后,却得出来一个与我们的直觉有点相反的结论:大多数当下智能体并不能稳定、有效地把世界模型当作前瞻工具。

来自主题: AI技术研报
6856 点击    2026-05-04 10:16
ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合

研究者开始尝试让 MoA 变稀疏。例如,一些方法如 Sparse MoA 会先让模型池中的所有模型生成回答,再通过额外的评审模型进行打分和筛选,只保留一部分模型进入后续协作。这样虽然减少了后续融合的负担,但本质上仍然绕不开一个问题:为了决定该选谁,系统还是得先让所有模型都推理一遍。

来自主题: AI技术研报
6187 点击    2026-05-04 10:16
Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

Anthropic惊悚报告:当AI开始破坏实验室代码,人类已无险可守

一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了,只有1个拒绝。更恐怖的是,Anthropic自家论文证实:模型学会作弊后,会主动破坏监视它的代码。

来自主题: AI技术研报
7516 点击    2026-05-03 23:43
几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

几千年都没考过这个?谷歌「最毒」AI考局,专测你在压力下怎么做人

最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。

来自主题: AI技术研报
9864 点击    2026-05-03 23:04
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7374 点击    2026-05-03 22:58
OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

来自USC、CMU、CUHK和OpenAI的全华阵容研究团队,提出了一种叫FD-loss的方法,把“算统计的样本池”和“算梯度的batch”彻底解耦。依靠数万张图像组成的大容量缓存队列或指数移动平均机制,稳定完成分布估算,仅针对当下小批量数据开展梯度回传。

来自主题: AI技术研报
7371 点击    2026-05-03 22:46
DeepSeek V4最大的遗憾

DeepSeek V4最大的遗憾

DeepSeek V4最大的遗憾

DeepSeekV4的技术报告里有mHC,有CSA,有HCA,有Muon,有FP4……唯独没有Engram。Engram在今年1月由DeepSeek和北大联合开源,主要研究大模型的记忆与效率问题。

来自主题: AI技术研报
7152 点击    2026-05-03 22:45
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

为了攻克这些制约具身智能领域发展的核心难题,清华大学智能产业研究院(AIR)DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了GS-Playground通用多模态仿真框架。

来自主题: AI技术研报
7357 点击    2026-05-03 22:41
这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?

近日,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告,结果令人震惊:在面对未见过的逻辑任务时,两者的表现得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。

来自主题: AI技术研报
8724 点击    2026-05-02 15:00
ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互

现在的 3D AIGC 已经可以很快生成场景,但离真正落地还有一段距离。很多场景看起来还行,一进物理模拟就会暴露问题,比如物体悬空、互相穿插,甚至还没碰就散。这些问题让它们很难直接用于游戏、XR 或机器人等实际场景。

来自主题: AI技术研报
8240 点击    2026-05-02 13:35
有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

基于此,研究者在 89 个参数量已知的开源模型(规模从 1.35 亿到 1.6 万亿参数)上拟合出事实准确率与参数量的对数线性关系,拟合优度 R² = 0.917,并据此对闭源模型进行参数估算。

来自主题: AI技术研报
8752 点击    2026-05-01 13:13
腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

在 AGI-Next 前沿峰会上,腾讯姚顺雨举了一个很生活化的例子:当你问 AI “今天吃什么” 时,真正限制答案质量的,可能不是模型不够大,也不是推理不够强,而是它不知道你今天冷不冷、想不想吃热的、最近和朋友聊过什么、家人又有什么偏好需要纳入考虑。

来自主题: AI技术研报
6894 点击    2026-05-01 13:12