AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

本周,美国具身智能创业公司 Physical Intelligence(简称 PI 或 π)发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报
8158 点击    2025-11-18 16:14
上下文工程:为什么你的 AI Agent 总是“断片”?

上下文工程:为什么你的 AI Agent 总是“断片”?

上下文工程:为什么你的 AI Agent 总是“断片”?

AI Agent 在处理复杂任务时经常“掉链子”。你刚告诉它的信息,它很快就忘了。给它的工具越多,它反而越混乱。这不是个例。

来自主题: AI技术研报
9500 点击    2025-11-18 16:11
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。

来自主题: AI技术研报
9327 点击    2025-11-18 15:15
告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent

为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。

来自主题: AI技术研报
5952 点击    2025-11-18 14:39
抱歉了GPT-5,这次是中国AI「上岸」了

抱歉了GPT-5,这次是中国AI「上岸」了

抱歉了GPT-5,这次是中国AI「上岸」了

基层医生的AI好助手来了!国产AI,更懂中国医生。

来自主题: AI技术研报
8673 点击    2025-11-18 10:51
Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

Zleap技术解密:后RAG时代已来,SAG重新定义AI搜索

大家好,我是Jomy,是智跃Zleap的CEO,也是Zleap产品和技术的主要设计者。此前在报道中,我曾粗略介绍过Zleap产品背后的技术:一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天,我要正式为大家介绍驱动这个Agent的底层技术:SAG。

来自主题: AI技术研报
9026 点击    2025-11-18 10:40
成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

CUDA 代码的性能对于当今的模型训练与推理至关重要,然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时,近年来 LLM 在 Code 领域获得了诸多成功。

来自主题: AI技术研报
8905 点击    2025-11-18 10:06
首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。

来自主题: AI技术研报
9614 点击    2025-11-18 09:35
这些大神在Meta的论文看一篇少一篇了

这些大神在Meta的论文看一篇少一篇了

这些大神在Meta的论文看一篇少一篇了

离开Meta的大佬们,留下作品还在陆续发表,今天轮到田渊栋。

来自主题: AI技术研报
5059 点击    2025-11-18 09:33
Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

港大、港科大与西电团队登上Nature子刊,破解AI芯片核心难题。他们攻克存算一体架构中模数转换器(ADC)这个占能耗87%的「黑洞」,利用忆阻器可编程特性打造能自适应数据分布的「智能标尺」,使AI芯片功耗锐减57.2%,面积缩小30.7%,为下一代高效AI硬件系统开辟新路。

来自主题: AI技术研报
7995 点击    2025-11-17 15:03
不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

不懂绘画也能做动画,OiiOii AI 玩法抢先分享!

嗨大家好!我是阿真! 继续为大家带来一些有趣的好玩的工具分享。

来自主题: AI技术研报
8171 点击    2025-11-17 15:02
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

来自主题: AI技术研报
7360 点击    2025-11-17 15:00
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。

来自主题: AI技术研报
9073 点击    2025-11-17 14:33
偶然刷到的一个逆天项目:AI黑客...

偶然刷到的一个逆天项目:AI黑客...

偶然刷到的一个逆天项目:AI黑客...

做过独立开发的朋友都清楚,虽然现在 AI 已经能写出相当不错的前端,后端也有成熟的 BaaS 服务,但应用开发并不仅仅只是写份代码。

来自主题: AI技术研报
5659 点击    2025-11-17 14:33
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报
7675 点击    2025-11-17 14:33
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
8313 点击    2025-11-17 14:32
AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了

憨豆先生坐在《猫和老鼠》的客厅里,汤姆在一旁跌进油漆桶,杰瑞躲在沙发后偷笑。这一幕,不是梦,也不是恶搞,而是AI真实生成的画面。在最新一篇论文中,研究者让从未共存的角色相遇,并解决了「风格错乱」的世纪难题。也许,我们正在迎接一个虚构与真实彻底混合的时代。

来自主题: AI技术研报
9241 点击    2025-11-17 10:21
WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!

来自主题: AI技术研报
9151 点击    2025-11-17 10:20
LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局中自主执行多步任务。

来自主题: AI技术研报
6578 点击    2025-11-17 10:19
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报
8484 点击    2025-11-17 09:53
EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

在大模型研究领域,做混合专家模型(MoE)的团队很多,但专注机制可解释性(Mechanistic Interpretability)的却寥寥无几 —— 而将二者深度结合,从底层机制理解复杂推理过程的工作,更是凤毛麟角。

来自主题: AI技术研报
8711 点击    2025-11-17 09:25
AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

来自主题: AI技术研报
10076 点击    2025-11-17 09:22
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热

来自主题: AI技术研报
6871 点击    2025-11-16 11:27