AI技术研报-这里有最前沿的人工智能技术解读

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收！这是该领域首个全面系统的综述，为语音 AI 的未来发展指明了方向。

来自主题: AI技术研报

6462 点击 2025-06-17 16:45

性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

国产推理大模型又有重磅选手。MiniMax开源MiniMax-M1，迅速引起热议。

来自主题: AI技术研报

6026 点击 2025-06-17 11:06

2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

当碳基生物还在为写文献综述，打开了一百个浏览器窗口时，隔壁AI已经卷起来了。（doge）

来自主题: AI技术研报

5528 点击 2025-06-17 10:53

深度解密：Anthropic多智能体系统背后的原理及提示词工程（建议收藏）

Anthropic 前两天发了一篇文章，重点讨论了他们是如何通过多智能体系统来构建 claude 的“深度研究功能”。

来自主题: AI技术研报

8651 点击 2025-06-17 10:46

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

8131 点击 2025-06-17 10:21

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

近年来，链式推理和强化学习已经被广泛应用于大语言模型，让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报

5864 点击 2025-06-17 10:15

AI竟会看Prompt下菜！Vibe coding普通人vs程序员，剑桥最新报告

您有没有发现一个奇怪的现象：同样是Vibe coding，有些人轻松拿到完整的Flask应用，有些人却只得到几行if-else语句？剑桥大学计算机科学与技术系的研究者们最近发布了一项研究，用科学的方法证实了我们的直觉——AI确实会"看人下菜碟"。

来自主题: AI技术研报

7271 点击 2025-06-17 10:08

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

当前，Agentic RAG（Retrieval-Augmented Generation）正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中，搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面，部分方法优化的目标与真实下游需求存在偏离，另一方面，搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报

6480 点击 2025-06-17 09:46

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限

来自主题: AI技术研报

8232 点击 2025-06-16 17:26

高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕！在人工智能领域，各家大模型向数学卷发起了挑战。

来自主题: AI技术研报

8152 点击 2025-06-16 17:04

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

让网页智能体自演进突破性能天花板！

来自主题: AI技术研报

5325 点击 2025-06-16 16:58

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策，但由于模型缺乏透明性，其决策过程往往难以被理解与验证，尤其在关键场景中，错误决策可能带来严重后果。因此，提升模型的可解释性成为迫切需求。

来自主题: AI技术研报

7599 点击 2025-06-16 16:31

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

推理大模型虽好，但一个简单的算数问题能推理整整三页，还都是重复的“废话”，找不到重点……

来自主题: AI技术研报

7145 点击 2025-06-16 15:50

Claude与人类共著论文，苹果再遭打脸！实验黑幕曝光

苹果一篇论文，再遭打脸。研究员联手Claude Opus用一篇4页论文再反击，揭露实验设计漏洞，甚至指出部分测试无解却让模型「背锅」的华点。

来自主题: AI技术研报

7633 点击 2025-06-16 15:29

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中，大语言模型以及多模态大模型（LVLM）正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报

7186 点击 2025-06-16 15:27

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

6072 点击 2025-06-16 15:24

写给小白的JSON完全指南：5分钟理解AI和开发者都在用的数据格式

最近研究 n8n , 发现各种输入、输出都用到 JSON 格式。对 AI 开发来说，为了生成可控，也会用这种格式。

来自主题: AI技术研报

5892 点击 2025-06-16 10:23

近期必读！Devin VS Anthropic 的多智能体构建方法论

昨天最热的的两篇文章是关于多智能体系统构建的讨论。先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验，具体：包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方面。

来自主题: AI技术研报

8910 点击 2025-06-16 10:17

98%医生点赞的AI队友，斯坦福实验揭秘：诊断准确率飙升10%！

AI从医疗工具变身为协作队友，斯坦福大学研究揭示：医生诊断准确率竟飙升10%！70名美国执业医生参与的真实测试，AI-first、AI-second与传统诊断，谁能更精准破解临床谜题？

来自主题: AI技术研报

5783 点击 2025-06-16 10:11

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

AI两天爆肝12年研究，精准吊打人类！多大、哈佛MIT等17家机构联手放大招，基于GPT-4.1和o3-mini，筛选文献提取数据，效率飙3000倍重塑AI科研工作流。

来自主题: AI技术研报

7791 点击 2025-06-16 09:55

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策，但由于模型缺乏透明性，其决策过程往往难以被理解与验证，尤其在关键场景中，错误决策可能带来严重后果。因此，提升模型的可解释性成为迫切需求。

来自主题: AI技术研报

5816 点击 2025-06-16 09:27

机器人也能边想边做！清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通

只用一个模型，就能边思考边动手，涮火锅、调鸡尾酒，还能听你指挥、自己纠错 —— 未来通用机器人的关键一跃，或许已经到来。

来自主题: AI技术研报

4886 点击 2025-06-16 09:24

囤的提示词每次都要找半天，怒肝10小时做出个插件解决！

作为一个专注用AI解决具体场景问题的自媒体小博主，每一个场景我一般都搓一个提示词出来，随着覆盖的场景越来越多，我的提示词库也变得越来越庞大。

来自主题: AI技术研报

6498 点击 2025-06-16 09:16

破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

在企业系统和科学研究中普遍存在、结构复杂的关系型数据库（Relational DataBase, RDB）场景中，基础模型的探索仍处于早期阶段。

来自主题: AI技术研报

8906 点击 2025-06-15 15:54

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

真正的智能在于理解任务的模糊与复杂，Context Scaling 是通向 AGI 的关键一步。

来自主题: AI技术研报

7959 点击 2025-06-15 15:45

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

最近，来自约翰・霍普金斯大学与中国人民大学的团队设计了三套实验，专门把关键线索藏在上下文之外，逼模型「凭记忆」作答，从而检验它们是否真的在脑海里保留了信息。

来自主题: AI技术研报

6886 点击 2025-06-15 15:16

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

想象一下：你正在浏览社交媒体，看到一张震撼的图片或一段令人震撼的视频。它栩栩如生，细节丰富，让你不禁信以为真。但它究竟是真实记录，还是由顶尖 AI 精心炮制的「杰作」？如果一个 AI 工具告诉你这是「假的」，它能进一步解释理由吗？它能清晰指出图像中不合常理的光影，或是视频里一闪而过的时序破绽吗？

来自主题: AI技术研报

6540 点击 2025-06-15 12:39

多智能体在「燃烧」Token！Anthropic公开发现的一切

研究多智能体必读指南。Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。

来自主题: AI技术研报

6266 点击 2025-06-14 17:52

模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律

研究人员发现，大语言模型的遗忘并非简单的信息删除，而是可能隐藏在模型内部。通过构建表示空间分析工具，区分了可逆遗忘和不可逆遗忘，揭示了真正遗忘的本质是结构性的抹除，而非行为的抑制。

来自主题: AI技术研报

6231 点击 2025-06-14 16:09

腾讯开源最强3D生成模型，消费级显卡就能跑 | CVPR

就在刚刚的CVPR上，鹅厂3D生成模型混元3D 2.1正式宣布开源！

来自主题: AI技术研报

6822 点击 2025-06-14 15:15

AI技术研报-这里有最前沿的人工智能技术解读

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

深度解密：Anthropic多智能体系统背后的 原理及提示词工程（建议收藏）

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

AI竟会看Prompt下菜！Vibe coding普通人vs程序员，剑桥最新报告

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

Claude与人类共著论文，苹果再遭打脸！实验黑幕曝光

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

写给小白的JSON完全指南：5分钟理解AI和开发者都在用的数据格式

近期必读！Devin VS Anthropic 的多智能体构建方法论

98%医生点赞的AI队友，斯坦福实验揭秘：诊断准确率飙升10%！

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

机器人也能边想边做！清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通

囤的提示词每次都要找半天，怒肝10小时做出个插件解决！

破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

多智能体在「燃烧」Token！Anthropic公开发现的一切

模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律

腾讯开源最强3D生成模型，消费级显卡就能跑 | CVPR

深度解密：Anthropic多智能体系统背后的原理及提示词工程（建议收藏）