AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报
9757 点击    2025-12-12 09:36
别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

来自主题: AI技术研报
8671 点击    2025-12-12 08:58
大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

大模型的第一性原理:(一)统计物理篇

白铂 博士,华为 2012 实验室理论研究部主任 信息论首席科学家

来自主题: AI技术研报
10250 点击    2025-12-12 08:57
你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

你的Agent可能设计错了:UIUC & 斯坦福等联合发文,重构Agent适配2X2

随着基础模型的日益成熟,AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段,适配(Adaptation) 成为了连接通用智能与垂直应用的关键纽带。

来自主题: AI技术研报
8194 点击    2025-12-12 08:53
被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

被拒≠失败!这些高影响力论文都被顶会拒收过

近日,Waymo 发布了一篇深度博客,详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。

来自主题: AI技术研报
7228 点击    2025-12-11 16:03
阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。

来自主题: AI技术研报
8524 点击    2025-12-11 15:07
MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

MIT最新发现:这十年,算法进步被高估了

在过去十年中,AI 的进步主要由两股紧密相关的力量推动:迅速增长的计算预算,以及算法创新。

来自主题: AI技术研报
9779 点击    2025-12-11 14:36
向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

向量数据库新范式:分层存储,让数据从全量加载到按需加载 | Milvus Week

本文为Milvus Week系列第7篇,该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报
9306 点击    2025-12-11 14:35
微软发布首个测试时扩展大规模研究,还给出了终极指南

微软发布首个测试时扩展大规模研究,还给出了终极指南

微软发布首个测试时扩展大规模研究,还给出了终极指南

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

来自主题: AI技术研报
6621 点击    2025-12-11 11:27
扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力,最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持,挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报
5695 点击    2025-12-11 10:42
华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

近日,师从新晋诺贝尔化学奖得主奥马尔·亚吉(Omar M. Yaghi)、目前在美国加州大学伯克利分校读博的荣自超,带领一个跨国际的研究团队,打造出名为AIRES (algorithmic iterative reticular synthesis)的机器学习指导的高通量实验平台,

来自主题: AI技术研报
7553 点击    2025-12-11 10:09
沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。

来自主题: AI技术研报
7981 点击    2025-12-10 16:11
00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

一部AI手机,火爆全网。张嘴一句话,它在短短几秒内,就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......正巧,我们在小红书上吃瓜的时候,意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」,但我想说点什么》。

来自主题: AI技术研报
7553 点击    2025-12-10 14:38
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。让机器人听懂指令,精准导航再升级!

来自主题: AI技术研报
6258 点击    2025-12-10 14:34
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6144 点击    2025-12-10 14:33
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展。

来自主题: AI技术研报
7043 点击    2025-12-10 14:28
Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。

来自主题: AI技术研报
9086 点击    2025-12-10 10:21
让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

假如你正在教一只小狗学习新技能。当你摇响铃铛然后给它食物,重复几次之后,只要一摇铃铛,即使没有食物,小狗也会留着口水跑过来。这就是著名的巴甫洛夫实验,它展现了生物是如何学习的。

来自主题: AI技术研报
5658 点击    2025-12-10 09:59
OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

当你还在纠结要不要用一下AI时,OpenAI已经拎着8亿人的加班数据,在被谷歌和Anthropic逼到墙角的企业战场上拼命自救——到底是谁在每天白赚1小时,谁又在被时代悄悄淘汰?

来自主题: AI技术研报
9005 点击    2025-12-09 23:47
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容,会被模型直接解释为生成指令,简化了图像生成过程中的控制流程。

来自主题: AI技术研报
10032 点击    2025-12-09 14:40
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。

来自主题: AI技术研报
9373 点击    2025-12-09 14:38
清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

从去年到今年,清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果,它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI,以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。

来自主题: AI技术研报
6440 点击    2025-12-09 10:37