AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

杜克大学团队发现,扩散大语言模型只需关注少量「中奖」token,就能在推理时把速度提升61-97倍,还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息,实现「少算多准」的双赢。

来自主题: AI技术研报
7337 点击    2025-09-28 09:51
业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

业界首个高质量原生3D组件生成模型来了!来自腾讯混元3D团队。现有的3D生成算法通常会生成一体化的3D模型,而下游应用通常需要语义可分解的3D形状,即3D物体的每一个组件需要单独地生成出来。

来自主题: AI技术研报
7769 点击    2025-09-27 16:06
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破

LightVLA 是一个旨在提升 VLA 推理效率且同时提升性能的视觉 token 剪枝框架。当前 VLA 模型在具身智能领域仍面临推理代价大而无法大规模部署的问题,然而大多数免训练剪枝框架依赖于中间注意力输出,并且会面临性能与效率的权衡问题。

来自主题: AI技术研报
5970 点击    2025-09-27 11:25
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

不牺牲任何生成质量,将多模态大模型推理最高加速3.2倍! 华为诺亚方舟实验室最新研究已入选NeurIPS 2025。

来自主题: AI技术研报
7348 点击    2025-09-27 11:19
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报
7596 点击    2025-09-27 11:13
NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源

TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销,使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强,帮助获得具身智能训练所需的海量高质量数据。

来自主题: AI技术研报
6990 点击    2025-09-27 11:06
NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数

在三维重建、NeRF 训练、视频生成等任务中,相机参数是不可或缺的先验信息。传统的 SfM/SLAM 方法(如 COLMAP)在静态场景下表现优异,但在存在人车运动、物体遮挡的动态场景中往往力不从心,并且依赖额外的运动掩码、深度或点云信息,使用门槛较高,而且效率低下。

来自主题: AI技术研报
6469 点击    2025-09-27 10:58
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑?解决方案来了——SEAL全新对比学习框架通过带结构感知+元素对齐,让模型更懂长文。

来自主题: AI技术研报
6177 点击    2025-09-27 10:43
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报
6296 点击    2025-09-27 10:19
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

OpenAI发布最新研究,却在里面夸了一波Claude。他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。

来自主题: AI技术研报
10104 点击    2025-09-26 16:03
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
6404 点击    2025-09-26 13:30
AI 会替代产品经理吗?答案藏在这份白皮书里

AI 会替代产品经理吗?答案藏在这份白皮书里

AI 会替代产品经理吗?答案藏在这份白皮书里

清华互联网产品研究协会(五道口产品观察)联合特工宇宙,从现状痛点到落地实践,再到职业进化路径,万字白皮书拆解 AI 与产品工作的适配方式,助力突破 AI 使用困局。

来自主题: AI技术研报
9099 点击    2025-09-26 11:22
喝点VC|红杉最新研究:AI的生产力悖论,5%的公司正从AI中获得显著价值,而95%却没有

喝点VC|红杉最新研究:AI的生产力悖论,5%的公司正从AI中获得显著价值,而95%却没有

喝点VC|红杉最新研究:AI的生产力悖论,5%的公司正从AI中获得显著价值,而95%却没有

两项最新研究更新了Brynjolfsson最初提出的生产力悖论,揭示企业和入门级岗位所面临的危机——以及初创公司的机遇。20世纪90年代,Erik Brynjolfsson及其同事提出“生产力悖论”:尽管信息技术快速进步、电脑在工作场所普及,生产率增长却依旧乏力。该悖论指出,仅拥有新技术不足以推动生产力,还需组织变革、技能提升和业务流程创新等补充因素。

来自主题: AI技术研报
8010 点击    2025-09-26 10:49
“零人”搞医学研究:清华AI智能体从灵感到论文全程自主

“零人”搞医学研究:清华AI智能体从灵感到论文全程自主

“零人”搞医学研究:清华AI智能体从灵感到论文全程自主

医学研究迎来“零人工”时代了?!清华大学自动化系索津莉课题组,发布首个专为医疗信息学设计的全自主AI研究框架——OpenLens AI。首次实现从文献挖掘→实验设计→数据分析→代码生成→可投稿论文的全链条自动化闭环。

来自主题: AI技术研报
7029 点击    2025-09-26 10:33
万字追问:鸡娃,还是躺平?大语言模型也有教育困境

万字追问:鸡娃,还是躺平?大语言模型也有教育困境

万字追问:鸡娃,还是躺平?大语言模型也有教育困境

其实大语言模型的“教育”问题也差不多。研究者在训练和使用这些模型时,离不开提示词。这就像一份人生剧本,告诉模型“你是谁?”“你要做什么?”“你能做到哪里?”但问题是,提示词到底应该像家长一样,

来自主题: AI技术研报
6376 点击    2025-09-26 10:32
美国 Top 15的AI 天使投资人都投了哪些公司? | Jinqiu Select

美国 Top 15的AI 天使投资人都投了哪些公司? | Jinqiu Select

美国 Top 15的AI 天使投资人都投了哪些公司? | Jinqiu Select

搜集整理了Top15的投资人在AI领域的代表性投资案例。希望能给关注AI的读者朋友提供有价值的参考。基于我们的观察和整理,Top15的天使投资人押注的项目,并非散点式的“随缘下注”,而是呈现出高度一致的共性和清晰的趋势。

来自主题: AI技术研报
9381 点击    2025-09-25 15:57
震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失

震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失

震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失

抢滩6G前夜,AI加物理正在重塑无线电地图产业格局。香港科技大学(广州)等机构联手重磅发布PhyRMDM框架,打破认知盲区,将物理约束与生成模型能力融合一体,显著提升高精度无线电地图的生成质量与稳定性。这一成果已被顶会ACM MM 2025接收。

来自主题: AI技术研报
6488 点击    2025-09-25 15:29
少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案,在真实环境里闭环工作,而不只是在对话里“想”的智能体能力(Agency)。在这篇论文之前的传统方法认为,需要遵循传统语言模型的“规模法则”(Scaling Laws)才能实现,即投入更多的数据就能获得更好的性能。

来自主题: AI技术研报
7263 点击    2025-09-25 15:21
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

随着 AIGC 图像生成技术的流行,后门攻击给开源社区的繁荣带来严重威胁,然而传统分类模型的后门防御技术无法适配 AIGC 图像生成。

来自主题: AI技术研报
7437 点击    2025-09-25 15:02
马斯克刚关注了这份AI报告

马斯克刚关注了这份AI报告

马斯克刚关注了这份AI报告

2030年的人工智能将会是什么样子?受谷歌DeepMind委托,Epoch发布新报告,从算力、数据、收入等方面进行了详细剖析。

来自主题: AI技术研报
8075 点击    2025-09-25 14:53
对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生,主要研究方向为联邦学习,多专家大模型,多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕

来自主题: AI技术研报
6095 点击    2025-09-25 10:44
“AI味”到底是什么味儿?

“AI味”到底是什么味儿?

“AI味”到底是什么味儿?

文章探讨了人们识别和反感的文本“AI味”,分析其特征(如三段式结构、晦涩用词、密集修辞),并通过与人类文本对比实验(高考作文)发现实际差异主要在修辞偏好(高频对偶、排比、比喻)和套路化表达,但刻板印象不完全准确。研究同时指出人类通过反复修改与AI协作,在应用中去除“AI味”并保留“人味”。

来自主题: AI技术研报
7394 点击    2025-09-25 10:32
a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

近期,a16z 的研究团队发布了一篇博客文章《Retention Is All You Need》,在分析了数百家 AI 企业的情况后发现:将衡量用户留存率的基准点从第 0 个月(M0)后移至第 3 个月(M3),反而能更清晰地评估 PMF 和 GTM 策略。

来自主题: AI技术研报
7476 点击    2025-09-24 15:45
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
7420 点击    2025-09-24 10:52
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到: 仅凭一张静态照片,就能 “脑补” 出整个 3D

来自主题: AI技术研报
6195 点击    2025-09-24 09:56
一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

AGI时代或将带来前所未有的繁荣:算力推动经济狂飙,但人类工资却被钉死在「算力成本」上,与增长彻底脱钩。耶鲁学者Restrepo的研究指出,劳动份额将归零,财富全面流向算力资本。人类或许仍被需要,却只停留在护理、陪伴等附属岗位。在这样的未来,工作还有意义吗?

来自主题: AI技术研报
6340 点击    2025-09-24 09:55
庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

数月前,苹果基础模型团队负责人、杰出工程师庞若鸣(Ruoming Pang)离职加入 Meta。扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队。根据庞若鸣的领英信息,他已在 Meta 工作了大约三个月的时间。

来自主题: AI技术研报
7880 点击    2025-09-24 09:54
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。

来自主题: AI技术研报
6406 点击    2025-09-24 09:53
Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

浙江大学与港大团队推出「Prior Depth Anything」,把稀疏的深度传感器数据与AI完整深度图融合,一键补洞、降噪、提分辨率,让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练,就能直接提升VGGT等3D模型的深度质量,零样本刷新多项深度补全、超分、修复纪录。

来自主题: AI技术研报
7102 点击    2025-09-24 09:52
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果——UI-S1,提出了一种名为半在线强化学习(Semi-online Reinforcement Learning)的创新训练范式。

来自主题: AI技术研报
6719 点击    2025-09-24 09:49