AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
这是最新AI产品季度百强丨量子位智库AI 100

这是最新AI产品季度百强丨量子位智库AI 100

这是最新AI产品季度百强丨量子位智库AI 100

最新一季度的「AI 100」双榜单出炉了。 领军阵营中,哪些头部产品的地位被撼动,哪些新起之秀成功突围?高潜力种子选手中,有哪些新的细分场景和产品设计展现潜力? 旗舰100和创新100榜单分别聚焦「国

来自主题: AI技术研报
7363 点击    2025-10-19 10:41
谷歌142页报告首发揭秘:90%码农每天用AI超2小时!

谷歌142页报告首发揭秘:90%码农每天用AI超2小时!

谷歌142页报告首发揭秘:90%码农每天用AI超2小时!

90%的开发者都在用AI,却只有24%真正信任它!DORA 2025报告揭示:AI不是万能解药,而是放大镜。它让强者飞升,让弱者溃败。七种团队人设、七项关键能力,决定了你的团队,是进化还是崩塌。

来自主题: AI技术研报
6231 点击    2025-10-18 12:40
推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

针对「大模型推理速度慢,生成token高延迟」的难题,莫纳什、北航、浙大等提出R-Stitch框架,通过大小模型动态协作,衡量任务风险后灵活选择:简单任务用小模型,关键部分用大模型。实验显示推理速度提升最高4倍,同时保证高准确率。

来自主题: AI技术研报
5817 点击    2025-10-18 12:21
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

来自主题: AI技术研报
7254 点击    2025-10-18 12:15
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。

来自主题: AI技术研报
6326 点击    2025-10-18 12:08
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

空间智能领域的全景数据稀缺问题,有解了。影石研究院团队,推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架,DiT360能够实现高质量的全景生成。

来自主题: AI技术研报
5825 点击    2025-10-18 12:02
动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

在机器人与自动驾驶领域,由强化学习训练的控制策略普遍存在控制动作不平滑的问题。这种高频的动作震荡不仅会加剧硬件磨损、导致系统过热,更会在真实世界的复杂扰动下引发系统失稳,是阻碍强化学习走向现实应用的关键挑战。

来自主题: AI技术研报
7115 点击    2025-10-18 11:54
ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

在今年的国际计算机视觉大会(ICCV 2025)上,来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。

来自主题: AI技术研报
6797 点击    2025-10-18 11:48
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

来自主题: AI技术研报
6770 点击    2025-10-18 11:36
小米最新大模型成果!罗福莉现身了

小米最新大模型成果!罗福莉现身了

小米最新大模型成果!罗福莉现身了

小米的最新大模型科研成果,对外曝光了。就在最近,小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中,因为更早之前在DeepSeek R1爆火前转会小米的罗福莉,也赫然在列,还是通讯作者。

来自主题: AI技术研报
7426 点击    2025-10-17 16:44
谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞

谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞

谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞

近日,谷歌与耶鲁大学联合发布的大模型C2S-Scale,首次提出并验证了一项全新的「抗癌假设」。这一成果表明,大模型不仅能复现已知科学规律,还具备生成可验新科学假设的能力。

来自主题: AI技术研报
6359 点击    2025-10-17 16:35
神经网络与符号系统大一统!华盛顿大学教授把AI逻辑统一成了张量表示

神经网络与符号系统大一统!华盛顿大学教授把AI逻辑统一成了张量表示

神经网络与符号系统大一统!华盛顿大学教授把AI逻辑统一成了张量表示

在通往AGI的道路上,人类欠缺的是一种合适的编程语言?华盛顿大学计算机学院教授Pedro Domingos在最新的独作论文中表示,当前AI领域使用的编程语言,无一例外全都存在缺陷。同时,Domingos还提出了一种新的统一语言,将AI逻辑统一成了张量表示。

来自主题: AI技术研报
6840 点击    2025-10-17 15:43
你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化,我们距离AGI还有多远?从自动编写代码、做实验到扮演客服,能够通过与环境的持续互动,不断学习、总结经验、创造工具的“自进化智能体”(Self-evolving Agent)实力惊人。

来自主题: AI技术研报
6586 点击    2025-10-17 15:38
LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报
7495 点击    2025-10-17 15:33
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

大模型强化学习总是「用力过猛」?Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则(rubric)的奖励建模新方法,从理论和实验两个维度证明:要想让大模型对齐效果好,关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源,还提供了实用的解决方案。

来自主题: AI技术研报
7074 点击    2025-10-17 09:48
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思

从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思

从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思

近期,扩散语言模型备受瞩目,提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果,西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型(Remasking-enabled Diffusion Language Model, RemeDi 9B)。

来自主题: AI技术研报
5052 点击    2025-10-17 09:41
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。

来自主题: AI技术研报
6913 点击    2025-10-17 09:33
基础模型已颠覆科研,进入第五范式!港科大综述113篇论文 | NeurIPS'25

基础模型已颠覆科研,进入第五范式!港科大综述113篇论文 | NeurIPS'25

基础模型已颠覆科研,进入第五范式!港科大综述113篇论文 | NeurIPS'25

基础模型(FM)是一种在海量数据上训练的人工智能系统,具备强大的通用性和跨模态能力。港科大最新发表的论文显示:FM可能引领科学进入第五范式,但大模型的偏见、幻觉等问题仍需正视。

来自主题: AI技术研报
6481 点击    2025-10-16 15:01
NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。

来自主题: AI技术研报
6676 点击    2025-10-16 14:51
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。然而,如果由传统的表征学习方法来处理这张图片,比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer,往往得到的表征只会体现其主体信息,也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报
6404 点击    2025-10-16 14:43
ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer(ViT)因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制(FDAM)模块。它通过巧妙地 “反转” 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检测等密集预测任务上的性能,并取得了 SOTA 效果。

来自主题: AI技术研报
5879 点击    2025-10-16 14:35
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。

来自主题: AI技术研报
7278 点击    2025-10-16 12:45
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。

来自主题: AI技术研报
8910 点击    2025-10-16 12:31
一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。

来自主题: AI技术研报
9132 点击    2025-10-16 12:19
清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。

来自主题: AI技术研报
7323 点击    2025-10-16 12:08
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集

NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集

NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集

在最近的一篇 NeurIPS 25 中稿论文中,来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。

来自主题: AI技术研报
8429 点击    2025-10-16 10:52