AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。

来自主题: AI技术研报
6411 点击    2025-11-18 14:39
抱歉了GPT-5,这次是中国AI「上岸」了

抱歉了GPT-5,这次是中国AI「上岸」了

抱歉了GPT-5,这次是中国AI「上岸」了

基层医生的AI好助手来了!国产AI,更懂中国医生。

来自主题: AI技术研报
9145 点击    2025-11-18 10:51
Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

大家好,我是Jomy,是智跃Zleap的CEO,也是Zleap产品和技术的主要设计者。此前在报道中,我曾粗略介绍过Zleap产品背后的技术:一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天,我要正式为大家介绍驱动这个Agent的底层技术:SAG。

来自主题: AI技术研报
9483 点击    2025-11-18 10:40
成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

CUDA 代码的性能对于当今的模型训练与推理至关重要,然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时,近年来 LLM 在 Code 领域获得了诸多成功。

来自主题: AI技术研报
9334 点击    2025-11-18 10:06
首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。

来自主题: AI技术研报
10035 点击    2025-11-18 09:35
这些大神在Meta的论文看一篇少一篇了

这些大神在Meta的论文看一篇少一篇了

这些大神在Meta的论文看一篇少一篇了

离开Meta的大佬们,留下作品还在陆续发表,今天轮到田渊栋。

来自主题: AI技术研报
5500 点击    2025-11-18 09:33
Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

港大、港科大与西电团队登上Nature子刊,破解AI芯片核心难题。他们攻克存算一体架构中模数转换器(ADC)这个占能耗87%的「黑洞」,利用忆阻器可编程特性打造能自适应数据分布的「智能标尺」,使AI芯片功耗锐减57.2%,面积缩小30.7%,为下一代高效AI硬件系统开辟新路。

来自主题: AI技术研报
8455 点击    2025-11-17 15:03
不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

嗨大家好!我是阿真! 继续为大家带来一些有趣的好玩的工具分享。

来自主题: AI技术研报
8756 点击    2025-11-17 15:02
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

来自主题: AI技术研报
7825 点击    2025-11-17 15:00
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。

来自主题: AI技术研报
9474 点击    2025-11-17 14:33
偶然刷到的一个逆天项目:AI黑客...

偶然刷到的一个逆天项目:AI黑客...

偶然刷到的一个逆天项目:AI黑客...

做过独立开发的朋友都清楚,虽然现在 AI 已经能写出相当不错的前端,后端也有成熟的 BaaS 服务,但应用开发并不仅仅只是写份代码。

来自主题: AI技术研报
6205 点击    2025-11-17 14:33
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报
8120 点击    2025-11-17 14:33
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
8751 点击    2025-11-17 14:32
AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

憨豆先生坐在《猫和老鼠》的客厅里,汤姆在一旁跌进油漆桶,杰瑞躲在沙发后偷笑。这一幕,不是梦,也不是恶搞,而是AI真实生成的画面。在最新一篇论文中,研究者让从未共存的角色相遇,并解决了「风格错乱」的世纪难题。也许,我们正在迎接一个虚构与真实彻底混合的时代。

来自主题: AI技术研报
9677 点击    2025-11-17 10:21
WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!

来自主题: AI技术研报
9544 点击    2025-11-17 10:20
LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局中自主执行多步任务。

来自主题: AI技术研报
7028 点击    2025-11-17 10:19
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报
8937 点击    2025-11-17 09:53
EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

在大模型研究领域,做混合专家模型(MoE)的团队很多,但专注机制可解释性(Mechanistic Interpretability)的却寥寥无几 —— 而将二者深度结合,从底层机制理解复杂推理过程的工作,更是凤毛麟角。

来自主题: AI技术研报
9135 点击    2025-11-17 09:25
AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

来自主题: AI技术研报
10529 点击    2025-11-17 09:22
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热

来自主题: AI技术研报
7282 点击    2025-11-16 11:27
AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律

AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律

AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律

人类数千年的科学探索,如今被AI「顿悟」瞬间复刻。北京大学研究团队推出的名为AI-Newton的AI系统,重新发现了牛顿第二定律、能量守恒定律和万有引力定律等基础规律,这一成果被视作AI驱动自主科学发现的一项重要进展。

来自主题: AI技术研报
8538 点击    2025-11-16 11:03
NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

市场不是机器,而是人群;不是公式,而是故事。TwinMarket让AI学会讲述这些故事。 1994年,美国圣塔菲研究所(Santa Fe Institute)推出了一个野心勃勃的项目:人工股票市场(A

来自主题: AI技术研报
7360 点击    2025-11-16 10:40
⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

来自主题: AI技术研报
6107 点击    2025-11-16 10:36
OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

来自主题: AI技术研报
7253 点击    2025-11-15 17:47