AI技术研报-这里有最前沿的人工智能技术解读

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

7852 点击 2025-08-10 13:29

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了！上海创智学院、上海交通大学（GAIR Lab）发布MegaScience。该数据集包含约125万条问答对及其参考答案，广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域，旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报

8069 点击 2025-08-09 15:52

1句话高质量生成游戏3D动作，北大新方法刷新动画制作SOTA

北京大学提出了ReMoMask：一种全新的基于检索增强生成的Text-to-Motion框架。它是一个集成三项关键创新的统一框架：（1）基于动量的双向文本-动作模型，通过动量队列将负样本的尺度与批次大小解耦，显著提高了跨模态检索精度；（2）语义时空注意力机制，在部件级融合过程中强制执行生物力学约束，消除异步伪影；（3）RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。

来自主题: AI技术研报

9845 点击 2025-08-09 11:32

首篇WebAgents综述：大模型赋能AI Agent，实现下一代Web自动化

互联网技术的发展极大地便利了我们的生活，但许多网络任务重复繁琐，降低了效率。为了解决这一问题，研究人员正在开发基于大型基础模型（LFMs）的智能体——WebAgents，通过感知环境、规划推理和执行交互来完成用户指令，显著提升便利性。香港理工大学的研究人员从架构、训练和可信性等角度，总结了WebAgents的代表性方法，全面梳理了相关研究进展。

来自主题: AI技术研报

9066 点击 2025-08-09 11:24

3B模型性能小钢炮，“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习，AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进，验证答案的本事却成了拖后腿的短板。为此，上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。

来自主题: AI技术研报

7991 点击 2025-08-09 11:11

从Debugger到Developer : 低代码时代新基准NoCode-bench，SWE-Bench作者力荐

当前，大型语言模型（LLM）在软件工程领域的应用日新月异，尤其是在自动修复 Bug 方面，以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而，软件开发远不止于修 Bug，功能开发与迭代才是日常工作的重头戏。

来自主题: AI技术研报

8358 点击 2025-08-08 17:01

AI修Bug新SOTA：SWE-Bench Lite60.33%修复率，像人一样能积累经验，中科院软件所出品

AI学会像人一样修Bug了！“这个Bug我上周刚修过”“这个报错怎么又来了”“新人怎么又在同一个地方踩坑”……

来自主题: AI技术研报

7775 点击 2025-08-08 12:08

颠覆互联网的下一波浪潮：Agentic Web来了！

过去三十年，互联网经历了从静态网页到智能推荐的深刻演变。如今，我们正站在互联网的另一个重大转折点上。这一转折，来自一种全新的范式设想 —— Agentic Web，一个由 AI 智能体组成的、目标导向型的互联网系统。在这个新框架中，用户不再手动浏览网页、点击按钮，而是通过自然语言向智能体发出一个目标，AI 会自主规划、搜索、调用服务、协调其他智能体，最终完成复杂任务。

来自主题: AI技术研报

9110 点击 2025-08-08 12:03

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

9772 点击 2025-08-08 11:52

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

心理健康问题影响着全球数亿人的生活，然而患者往往面临着双重负担：不仅要承受疾病本身的痛苦，还要忍受来自社会的偏见和歧视。世界卫生组织数据显示，全球有相当比例的心理健康患者因为恐惧社会歧视而延迟或拒绝治疗。

来自主题: AI技术研报

8576 点击 2025-08-08 11:41

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

9831 点击 2025-08-08 11:22

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

近日，一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究，提出了一种名为「SWE-Swiss」的完整「配方」，旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B，在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率，在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报

7986 点击 2025-08-08 10:43

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。对于智能体而言，记忆（Memory）是其中的重要能力，承担了记录过往信息和外部知识的功能，对于提高智能体的个性化等能力至关重要。

来自主题: AI技术研报

7981 点击 2025-08-07 17:03

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准（如MTEB）只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中，这些基准就无能为力。为了更好的开发下一代向量模型和重排器，我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报

11399 点击 2025-08-07 14:43

“神经-符号”融合规划器性能显著超越o1：借鉴人类运动学习机制｜中国科学院磐石研发团队

科研er看过来！还在反复尝试材料组合方案，耗时又耗力？新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

来自主题: AI技术研报

9053 点击 2025-08-06 16:01

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

当前先进制造领域的产线良率往往超过 98%，因此异常样本（也称为缺陷样本）的搜集和标注已成为⼯业质检的核⼼瓶颈，过少的异常样本显著限制了模型的检测能⼒，利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择，但现有⽅法存在明显局限

来自主题: AI技术研报

8407 点击 2025-08-06 15:46

黄仁勋预言成真！AI智能体成GitHub主力，一天顶人类一年

「软件正在吞噬世界，但AI将吞噬软件。」—英伟达CEO黄仁勋的预言正加速照进现实。

来自主题: AI技术研报

8432 点击 2025-08-06 13:21

科研写作神器，超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别（OCR）是科学文献数字化与智能处理的基础环节，尽管该领域取得了一定进展，现有方法在真实科学文献处理时仍面临诸多挑战：

来自主题: AI技术研报

8021 点击 2025-08-06 12:56

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。

来自主题: AI技术研报

7997 点击 2025-08-06 12:18

小米模型实现声音理解新SOTA！数据吞吐效率暴增20倍，推理速度快4倍 | 全量开源

声音理解能力新SOTA，小米全量开源了模型。 MiDashengLM-7B，基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。

来自主题: AI技术研报

7832 点击 2025-08-06 12:11

北大、蚂蚁三个维度解构高效隐私保护机器学习：前沿进展+发展方向

在数据隐私日益重要的 AI 时代，如何在保护用户数据的同时高效运行机器学习模型，成为了学术界和工业界共同关注的难题。

来自主题: AI技术研报

7426 点击 2025-08-06 11:53

Qwen新开源，把AI生图里的文字SOTA拉爆了

通义模型家族，刚刚又双叒开源了，这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。这也是通义千问系列中首个图像生成基础模型。

来自主题: AI技术研报

8581 点击 2025-08-05 17:10

南大周志华团队最新力作：一个算法通吃所有，在线学习迎来新范式？

世界是动态变化的。为了理解这个动态变化的世界并在其中运行，AI 模型必须具备在线学习能力。为此，该领域提出了一种新的性能指标 —— 适应性遗憾值（adaptive regret），其定义为任意区间内的最大静态遗憾值。

来自主题: AI技术研报

7517 点击 2025-08-05 16:29

全球首个人形机器人通用视觉感知系统，Humanoid Occupancy建立多模态环境理解新范式

凭借类人化的结构设计与运动模式，人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域，而这些任务的高效完成，均以机器人对自身所处环境的全面精准理解为前提。

来自主题: AI技术研报

7957 点击 2025-08-05 16:14

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

当前环境感知通信正逐步成为第六代移动通信系统（6G）的核心使能技术之一。为支撑其在复杂三维环境下的部署需求，西安电子科技大学、香港中文大学（深圳）和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D，并构建了基于扩散模型的三维无线电图生成框架RadioDiff-3D。

来自主题: AI技术研报

8432 点击 2025-08-05 16:07