AI技术研报-这里有最前沿的人工智能技术解读

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

本文介绍使用四块Framework主板构建AI推理集群的完整过程，并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器，采用mini ITX规格设计，可部署在10英寸标准机架中。

来自主题: AI技术研报

10456 点击 2025-08-25 09:51

第一名方案公开，代码智能体安全竞赛，普渡大学拿下90%攻击成功率

近期多项研究 [1-2] 表明，即使是经过安全对齐的大语言模型，也可能在正常开发场景中无意间生成存在漏洞的代码，为后续被利用埋下隐患；而在恶意用户手中，这类模型还能显著加速恶意软件的构建与迭代，降低攻击门槛、缩短开发周期。

来自主题: AI技术研报

7138 点击 2025-08-24 12:24

比GPT-5还准？AIME25飙到99.9%刷屏，开源模型首次！

DeepConf由Meta AI与加州大学圣地亚哥分校提出，核心思路是让大模型在推理过程中实时监控置信度，低置信度路径被动态淘汰，高置信度路径则加权投票，从而兼顾准确率与效率。在AIME 2025上，它首次让开源模型无需外部工具便实现99.9%正确率，同时削减85%生成token。

来自主题: AI技术研报

8489 点击 2025-08-23 16:12

让AI作画自己纠错！随机丢模块就能提升生成质量，告别塑料感废片

AI作画、生视频，可以「自己救自己」了？！当大家还在为CFG（无分类器引导）的参数搞到头秃，却依然得到一堆“塑料感”废片而发愁时，来自清华大学、阿里巴巴AMAP（高德地图）、中国科学院自动化研究所的研究团队，推出全新方法S²-Guidance (Stochastic Self-Guidance)。

来自主题: AI技术研报

6806 点击 2025-08-23 16:04

Chain-of-Agents: OPPO推出通用智能体模型新范式，多榜单SOTA，模型代码数据全开源

近年来，以多智能体系统（MAS）为代表的研究取得了显著进展，在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务，展现出明显的优势。

来自主题: AI技术研报

7020 点击 2025-08-23 15:50

马斯克Grok-4卖货创收碾压GPT-5！AI卖货排行榜曝光，AGI的尽头是卖薯片？

AGI的尽头是「带货」吗？一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机，在长周期商业任务中一较高下。在这场独特的较量中，马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。

来自主题: AI技术研报

8640 点击 2025-08-23 13:29

KDD 2025 Best Paper Runner-Up | EI-BERT：超紧凑语言模型压缩框架

在移动计算时代，将高效的自然语言处理模型部署到资源受限的边缘设备上面临巨大挑战。这些场景通常要求严格的隐私合规、实时响应能力和多任务处理功能。

来自主题: AI技术研报

7675 点击 2025-08-23 11:47

谷歌Gemini一次提示能耗≈看9秒电视，专家：别太信，有误导性

谷歌最近发布了一项关于其 AI 模型 Gemini 能源消耗的研究报告。

来自主题: AI技术研报

6626 点击 2025-08-22 17:54

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报

7430 点击 2025-08-22 17:23

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报

7221 点击 2025-08-22 16:35

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答（VQA）任务中展现出较强性能，但在真实世界中，多模态任务往往涉及多步骤推理与功能多样的工具使用，现有模型在此方面仍存在显著差距。

来自主题: AI技术研报

6866 点击 2025-08-22 16:20

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力

来自主题: AI技术研报

8574 点击 2025-08-22 10:35

GPT-5点赞！八大顶尖机构发布「自进化智能体」全面综述

在AI浪潮席卷全球的2025年，大语言模型（LLM）已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了：这些智能体一旦部署，就如「冻结的冰块」，难以适应瞬息万变的世界。

来自主题: AI技术研报

7764 点击 2025-08-22 10:23

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

来自主题: AI技术研报

7698 点击 2025-08-21 16:08

开源复现o3图像思考！快手让AI不再被动看图，模型自主生成代码调用工具

在Openai 发布o3后，think with image功能得到了业界和学术界的广泛关注。

来自主题: AI技术研报

8180 点击 2025-08-21 15:25

全球大模型季报：“犹太人的金融，华人的AGI”

硅谷各个模型公司在这个季度，开始分化到各个领域，除了 Google Gemini 和 OpenAI 还在做通用的模型；Anthropic 分化到 Coding、Agentic 的模型能力；Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。

来自主题: AI技术研报

8272 点击 2025-08-21 12:32

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。但当它要不停地查资料、跳页面、筛选信息时，显存狂飙、算力吃紧的问题就来了。

来自主题: AI技术研报

7716 点击 2025-08-21 11:33

上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型

要让视频生成模型真正成为模拟真实物理世界的「世界模型」，必须具备长时间生成并保留场景记忆的能力。然而，交互式长视频生成一直面临一个致命短板：缺乏稳定的场景记忆。镜头稍作移动再转回，眼前景物就可能「换了个世界」。

来自主题: AI技术研报

8186 点击 2025-08-21 11:25

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

来自主题: AI技术研报

7641 点击 2025-08-21 11:19

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报

8130 点击 2025-08-20 16:26

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

「兄弟们，DiT 是错的！」最近一篇帖子在 X 上引发了很大的讨论，有博主表示 DiT 存在架构上的缺陷，并附上一张论文截图。

来自主题: AI技术研报

7993 点击 2025-08-20 16:17

国产AI路由系统开源逆袭！仅用19%成本达到Gemini-2.5-Pro同等性能

虽然大模型的优越表现令人瞩目，但动辄高昂的使用成本也让不少用户望而却步。为平衡性能与成本，上海人工智能实验室科研团队基于前期技术积累，开源推出了Avengers-Pro多模型调度路由方案。

来自主题: AI技术研报

6970 点击 2025-08-20 16:07

ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型（VLM），但受限于图像编码器的表现，难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互（HOI）检测方法——交互感知提示与概念校准（INP-CC）。

来自主题: AI技术研报

7173 点击 2025-08-20 11:05

字节Seed开源长线记忆多模态Agent，像人一样能听会看

字节Seed发布全新多模态智能体框架——M3-Agent。像人类一样能听会看、具备长期记忆，并且免费开源！？

来自主题: AI技术研报

6789 点击 2025-08-19 10:16

一句话，性能暴涨49%！马里兰MIT等力作：Prompt才是大模型终极武器

提示词才是AI隐藏的王牌！马里兰MIT等顶尖机构研究证明，一半提示词，是让AI性能飙升49%的关键。

来自主题: AI技术研报

7511 点击 2025-08-18 18:06

NextStep-1：一次在图像生成上自回归范式的探索

自回归模型，是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界，从经典的离散序列生成，到结合强大扩散模型的混合范式，每一步都凝聚了社区的智慧。

来自主题: AI技术研报

7539 点击 2025-08-18 17:36

开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍

在大语言模型（LLMs）领域，自回归（AR）范式长期占据主导地位，但其逐 token 生成也带来了固有的推理效率瓶颈。此前，谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量，向业界展现了扩散大语言模型（dLLMs）在推理速度上的巨大潜力。

来自主题: AI技术研报

7860 点击 2025-08-18 17:20

一张图，开启四维时空：4DNeX让动态世界「活」起来

仅凭一张照片，能否让行人继续行走、汽车继续飞驰、云朵继续流动，并让你从任意视角自由观赏？

来自主题: AI技术研报

7781 点击 2025-08-18 17:14

KDD 2025 | UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务

在今年的 ACM KDD 2025 大会上，清华大学电子系团队联合中国移动发布了 UoMo，全球首个面向移动网络的通用流量预测模型。UoMo 能同时胜任短期预测、长期预测，甚至在没有历史数据的情况下生成全新区域的流量分布。

来自主题: AI技术研报

7051 点击 2025-08-18 15:54

400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？

还记得分层推理模型（Hierarchical Reasoning Model，HRM）吗？这项工作于 6 月份发布，当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞，剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次。

来自主题: AI技术研报

8278 点击 2025-08-18 12:36

AI技术研报-这里有最前沿的人工智能技术解读

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

第一名方案公开，代码智能体安全竞赛，普渡大学拿下90%攻击成功率

比GPT-5还准？AIME25飙到99.9%刷屏，开源模型首次！

让AI作画自己纠错！随机丢模块就能提升生成质量，告别塑料感废片

Chain-of-Agents: OPPO推出通用智能体模型新范式，多榜单SOTA，模型代码数据全开源

马斯克Grok-4卖货创收碾压GPT-5！AI卖货排行榜曝光，AGI的尽头是卖薯片？

KDD 2025 Best Paper Runner-Up | EI-BERT：超紧凑语言模型压缩框架

谷歌Gemini一次提示能耗≈看9秒电视，专家：别太信，有误导性

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

GPT-5点赞！八大顶尖机构发布「自进化智能体」全面综述

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

开源复现o3图像思考！快手让AI不再被动看图，模型自主生成代码调用工具

全球大模型季报：“犹太人的金融，华人的AGI”

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

国产AI路由系统开源逆袭！仅用19%成本达到Gemini-2.5-Pro同等性能

ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测

字节Seed开源长线记忆多模态Agent，像人一样能听会看

一句话，性能暴涨49%！马里兰MIT等力作：Prompt才是大模型终极武器

NextStep-1：一次在图像生成上自回归范式的探索

开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍

一张图，开启四维时空：4DNeX让动态世界 「活」起来

KDD 2025 | UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务

400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？

一张图，开启四维时空：4DNeX让动态世界「活」起来