AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。

来自主题: AI技术研报
6520 点击    2025-08-23 16:12
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

AI作画、生视频,可以「自己救自己」了?! 当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆“塑料感”废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S²-Guidance (Stochastic Self-Guidance)。

来自主题: AI技术研报
5119 点击    2025-08-23 16:04
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

近年来,以多智能体系统(MAS)为代表的研究取得了显著进展,在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务,展现出明显的优势。

来自主题: AI技术研报
5125 点击    2025-08-23 15:50
马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

AGI的尽头是「带货」吗?一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机,在长周期商业任务中一较高下。在这场独特的较量中,马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。

来自主题: AI技术研报
6970 点击    2025-08-23 13:29
KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

在移动计算时代,将高效的自然语言处理模型部署到资源受限的边缘设备上面临巨大挑战。这些场景通常要求严格的隐私合规、实时响应能力和多任务处理功能。

来自主题: AI技术研报
5771 点击    2025-08-23 11:47
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报
5584 点击    2025-08-22 17:23
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报
5399 点击    2025-08-22 16:35
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
5104 点击    2025-08-22 16:20
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力

来自主题: AI技术研报
6792 点击    2025-08-22 10:35
GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

在AI浪潮席卷全球的2025年,大语言模型(LLM)已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了:这些智能体一旦部署,就如「冻结的冰块」,难以适应瞬息万变的世界。

来自主题: AI技术研报
6546 点击    2025-08-22 10:23
击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

推理大模型(Large Reasoning Model)极大的促进了自然语言处理领域的发展,而信息检索领域的核心问题之一是文档排序,如何利用强大的推理大模型通过主动推理来判断文档的相关性,进而再对文档进行排序是一个值得探索的方向。

来自主题: AI技术研报
6417 点击    2025-08-21 16:08
全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。

来自主题: AI技术研报
5789 点击    2025-08-21 12:32
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。

来自主题: AI技术研报
6135 点击    2025-08-21 11:25
Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。

来自主题: AI技术研报
5959 点击    2025-08-21 11:19
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报
6425 点击    2025-08-20 16:26
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。

来自主题: AI技术研报
6002 点击    2025-08-20 16:17
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。 为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。

来自主题: AI技术研报
5361 点击    2025-08-20 16:07
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
5738 点击    2025-08-20 11:05
字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed发布全新多模态智能体框架——M3-Agent。 像人类一样能听会看、具备长期记忆,并且免费开源!?

来自主题: AI技术研报
5224 点击    2025-08-19 10:16
NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。

来自主题: AI技术研报
5487 点击    2025-08-18 17:36
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍

开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍

开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍

在大语言模型(LLMs)领域,自回归(AR)范式长期占据主导地位,但其逐 token 生成也带来了固有的推理效率瓶颈。此前,谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量,向业界展现了扩散大语言模型(dLLMs)在推理速度上的巨大潜力。

来自主题: AI技术研报
6090 点击    2025-08-18 17:20
一张图,开启四维时空:4DNeX让动态世界 「活」起来

一张图,开启四维时空:4DNeX让动态世界 「活」起来

一张图,开启四维时空:4DNeX让动态世界 「活」起来

仅凭一张照片,能否让行人继续行走、汽车继续飞驰、云朵继续流动,并让你从任意视角自由观赏?

来自主题: AI技术研报
7047 点击    2025-08-18 17:14
KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务

KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务

KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务

在今年的 ACM KDD 2025 大会上,清华大学电子系团队联合中国移动发布了 UoMo,全球首个面向移动网络的通用流量预测模型。UoMo 能同时胜任短期预测、长期预测,甚至在没有历史数据的情况下生成全新区域的流量分布。

来自主题: AI技术研报
5895 点击    2025-08-18 15:54
400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?

400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?

400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?

还记得分层推理模型(Hierarchical Reasoning Model,HRM)吗? 这项工作于 6 月份发布,当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞,剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次。

来自主题: AI技术研报
6881 点击    2025-08-18 12:36
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

来自主题: AI技术研报
6096 点击    2025-08-18 11:53
AI产品们,有哪些“反常识”趋势?

AI产品们,有哪些“反常识”趋势?

AI产品们,有哪些“反常识”趋势?

数据显示,无论是国内还是海外,AI行业的发展,在经历了爆发式增长后,都开始出现部分下滑,行业正进入一个全新的阶段。真实的用户偏好开始显现,旧的增长逻辑正在失效。

来自主题: AI技术研报
7556 点击    2025-08-18 11:53