AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。

来自主题: AI技术研报
7298 点击    2025-08-26 19:34
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自主题: AI技术研报
7338 点击    2025-08-26 12:11
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。

来自主题: AI技术研报
6830 点击    2025-08-26 11:30
真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

浙江大学与哈工大(深圳)联合推出SafeMVDrive,利用扩散模型结合VLM实现批量化多视角真实域的安全关键视频生成。该方法在保持画质与真实感的同时,显著增强了驾驶场景的危险性。生成的场景用于端到端自动驾驶系统的极限压测,可使得模型的碰撞率提升50倍。

来自主题: AI技术研报
6441 点击    2025-08-26 10:47
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench

在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。

来自主题: AI技术研报
7364 点击    2025-08-25 15:44
突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂? 当前 AI 长视频⽣成普遍⾯临 “高开低走 ” 的困境:前几秒惊艳夺⽬ ,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题 —— 动辄数小时的等待,实时预览几乎难以企及。

来自主题: AI技术研报
6415 点击    2025-08-25 15:33
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械味」。

来自主题: AI技术研报
6117 点击    2025-08-25 10:08
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。

来自主题: AI技术研报
9741 点击    2025-08-25 09:51
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。

来自主题: AI技术研报
6734 点击    2025-08-24 12:24
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。

来自主题: AI技术研报
7891 点击    2025-08-23 16:12
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

AI作画、生视频,可以「自己救自己」了?! 当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆“塑料感”废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S²-Guidance (Stochastic Self-Guidance)。

来自主题: AI技术研报
6289 点击    2025-08-23 16:04
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源

近年来,以多智能体系统(MAS)为代表的研究取得了显著进展,在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务,展现出明显的优势。

来自主题: AI技术研报
6365 点击    2025-08-23 15:50
马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

AGI的尽头是「带货」吗?一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机,在长周期商业任务中一较高下。在这场独特的较量中,马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。

来自主题: AI技术研报
8147 点击    2025-08-23 13:29
KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

在移动计算时代,将高效的自然语言处理模型部署到资源受限的边缘设备上面临巨大挑战。这些场景通常要求严格的隐私合规、实时响应能力和多任务处理功能。

来自主题: AI技术研报
7047 点击    2025-08-23 11:47
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!

在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报
6830 点击    2025-08-22 17:23
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报
6585 点击    2025-08-22 16:35
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
6280 点击    2025-08-22 16:20
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力

来自主题: AI技术研报
8019 点击    2025-08-22 10:35
GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

在AI浪潮席卷全球的2025年,大语言模型(LLM)已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了:这些智能体一旦部署,就如「冻结的冰块」,难以适应瞬息万变的世界。

来自主题: AI技术研报
7336 点击    2025-08-22 10:23
击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

击败Meta登榜首:推理增强的文档排序模型ReasonRank来了

推理大模型(Large Reasoning Model)极大的促进了自然语言处理领域的发展,而信息检索领域的核心问题之一是文档排序,如何利用强大的推理大模型通过主动推理来判断文档的相关性,进而再对文档进行排序是一个值得探索的方向。

来自主题: AI技术研报
7271 点击    2025-08-21 16:08
全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

全球大模型季报:“犹太人的金融,华人的AGI”

硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。

来自主题: AI技术研报
7335 点击    2025-08-21 12:32
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型

要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。

来自主题: AI技术研报
7462 点击    2025-08-21 11:25
Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

Sora没做到的,LongVie框架给解决了,超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。

来自主题: AI技术研报
7160 点击    2025-08-21 11:19
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报
7531 点击    2025-08-20 16:26
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。

来自主题: AI技术研报
7378 点击    2025-08-20 16:17
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能

虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。 为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。

来自主题: AI技术研报
6372 点击    2025-08-20 16:07