AI技术研报-这里有最前沿的人工智能技术解读

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

编程智能体也有「进化论」！Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机（DGM），能自动改写自身代码，性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了？

来自主题: AI技术研报

7914 点击 2025-06-03 11:36

无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

新加坡国立大学等机构的研究者们通过元能力对齐的训练框架，模仿人类推理的心理学原理，将演绎、归纳与溯因能力融入模型训练。实验结果显示，这一方法不仅提升了模型在数学与编程任务上的性能，还展现出跨领域的可扩展性。

来自主题: AI技术研报

9151 点击 2025-06-03 10:36

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

杯子在我的左边还是右边？

来自主题: AI技术研报

6961 点击 2025-06-03 10:31

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

在多智能体AI系统中，一旦任务失败，开发者常陷入「谁错了、错在哪」的谜团。PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」，发布Who&When数据集，探索三种归因方法，揭示该问题的复杂性与挑战性。

来自主题: AI技术研报

8963 点击 2025-06-03 10:25

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

来自主题: AI技术研报

7835 点击 2025-06-03 09:58

LSTM之父22年前构想将成真？一周内AI「自我进化」论文集中发布，新趋势涌现？

在过去的一周，这一方向的进展尤其丰富。有人发现，几篇关于「让 LLM（或智能体）学会自我训练」的论文在 arXiv 上集中出现，其中甚至包括受「哥德尔机」构想启发而提出的「达尔文哥德尔机」。或许，AI 模型的自我进化能力正在加速提升。

来自主题: AI技术研报

6714 点击 2025-06-03 09:36

微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失

原生1bit大模型BitNet b1.58 2B4T再升级！微软公布BitNet v2，性能几乎0损失，而占用内存和计算成本显著降低。

来自主题: AI技术研报

7309 点击 2025-06-02 18:00

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

6961 点击 2025-06-02 17:48

FLUX.1 Kontext案例教程，这次真的解决主体一致性了

嗨大家好！假期愉快！ 5月29日，黑森林实验室发布了 FLUX.1 Kontext，目标是通过一个统一的框架处理多种图像任务，解决现有模型在多轮编辑中的一些关键痛点。

来自主题: AI技术研报

8590 点击 2025-06-02 17:20

揭开大模型“伪遗忘”，港理工等团队：结构不变就是没忘

近年来，大语言模型（LLMs）的能力突飞猛进，但随之而来的隐私风险也逐渐浮出水面。

来自主题: AI技术研报

6985 点击 2025-06-02 16:22

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

来自主题: AI技术研报

7298 点击 2025-06-02 15:53

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报

7281 点击 2025-06-02 15:24

360开源高质量图文对齐数据集！收纳1200万张图像+1000万组细粒度负样本，让模型告别“图文不符”

如何让CLIP模型更关注细粒度特征学习，避免“近视”？360人工智能研究团队提出了FG-CLIP，可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述，而不是更全局但是错误的描述。

来自主题: AI技术研报

7755 点击 2025-06-02 15:17

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao，刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。

来自主题: AI技术研报

6754 点击 2025-06-02 15:04

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈！CMU团队提出革命性方案SRT：让LLM实现无需人类标注的自我进化！SRT初期就能迭代提升数学与推理能力，甚至性能逼近传统强化学习的效果，揭示了其颠覆性潜力。

来自主题: AI技术研报

6290 点击 2025-06-02 14:16

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近段时间，已经出现了不少基于扩散模型的语言模型，而现在，基于扩散模型的视觉-语言模型（VLM）也来了，即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa，继承了扩散语言模型高速且可控的优点，并在实验中取得了相当不错的表现。

来自主题: AI技术研报

6932 点击 2025-06-01 17:58

近期必读，Mary Meeker 340页PPT分析AI现状和未来（附PDF下载地址，双语翻译版哦）

昨天发现Mary Meeker又重新开始发布她每年一次的《互联网趋势报告》，只不过这次开始叫《人工智能趋势报告》了，整份报告有 340 页，非常详细的分析了AI领域的现状。

来自主题: AI技术研报

18042 点击 2025-06-01 14:33

AI记忆系统首获统一框架！6大操作让大模型拥有人类记忆能力

来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述，旨在在大模型时代背景下，重新审视并系统化理解智能体的记忆构建与演化路径。

来自主题: AI技术研报

7824 点击 2025-06-01 13:58

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip，并创新性地提出分组自注意力机制（group self-attention），在此任务上取得了优异的效果。

来自主题: AI技术研报

7737 点击 2025-06-01 13:30

陶哲轩转发！DeepMind开源「AI数学证明标准习题集」

陶哲轩转发，AI搞数学证明的标准习题集来了！

来自主题: AI技术研报

8013 点击 2025-05-31 17:44

斯坦福华人天团意外爆冷！AI用纯CUDA-C编内核，竟干翻PyTorch？

本想练练手合成点数据，没想到却一不小心干翻了PyTorch专家内核！斯坦福华人团队用纯CUDA-C写出的AI生成内核，瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示：本来不想发这个结果的。

来自主题: AI技术研报

7032 点击 2025-05-31 17:30

1/15成本，实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印，让AIGC图像可溯源，已经成为行业共识。

来自主题: AI技术研报

6261 点击 2025-05-31 16:48

SSM+扩散模型，竟造出一种全新的「视频世界模型」

当状态空间模型遇上扩散模型，对世界模型意味着什么？

来自主题: AI技术研报

7978 点击 2025-05-31 16:40

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

为提升大模型“推理+搜索”能力，阿里通义实验室出手了。

来自主题: AI技术研报

7154 点击 2025-05-31 16:19

大模型推理的“左右脑”革命！华为盘古Embedded凭昇腾之力，让快慢思考合二为一

孙子兵法有云：“故其疾如风，其徐如林”，意指在行进迅速时，如狂风飞旋；而在行进从容时，如森林徐徐展开。

来自主题: AI技术研报

8181 点击 2025-05-31 16:11

从打分器到思考者：RM-R1用推理重塑模型价值判断

「知其然，亦知其所以然。」

来自主题: AI技术研报

6749 点击 2025-05-31 15:48

o3崛起，但推理模型离「撞墙」只剩一年？

OpenAI的o3推理模型席卷AI界，算力暴增10倍，能力突飞猛进！但专家警告：最多一年，推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜？

来自主题: AI技术研报

9038 点击 2025-05-31 15:36

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅4步

近年来，语言模型技术迅速发展，然而代表性成果如Gemini 2.5Pro和GPT-4.1，逐渐被谷歌、OpenAI等科技巨头所垄断。

来自主题: AI技术研报

6849 点击 2025-05-31 15:35

Correlations：氛围测试你的向量模型

在今年 ICLR 会议上，我们被问到最多且最有意思的问题是：像 Jina AI 这样的向量搜索模型提供商，除了在 MTEB 上做基准测试，会不会做些氛围测试（Vibe-testing)？

来自主题: AI技术研报

8034 点击 2025-05-31 15:20

斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

好家伙，AI意外生成的内核（kernel），性能比人类专家专门优化过的还要好！

来自主题: AI技术研报

6291 点击 2025-05-31 15:07