AI技术研报-这里有最前沿的人工智能技术解读

扩散语言模型推理太慢？北大团队提出ODB-dLLM框架，破解计算访存双重瓶颈

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力，最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持，挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报

7188 点击 2025-12-11 10:42

LLM距离AGI只差一层：斯坦福研究颠覆「模式匹配」观点

有关大语言模型的理论基础，可能要出现一些改变了。

来自主题: AI技术研报

10707 点击 2025-12-11 10:10

仿真数据也能Scaling！虚实结合训练，端到端性能全面提升｜中科院x港大x小米汽车

自动驾驶数据荒怎么破？

来自主题: AI技术研报

8096 点击 2025-12-11 10:10

华人博士用AI破解十年材料发现困局，让ZIF晶体发现效率翻倍

近日，师从新晋诺贝尔化学奖得主奥马尔·亚吉（Omar M. Yaghi）、目前在美国加州大学伯克利分校读博的荣自超，带领一个跨国际的研究团队，打造出名为AIRES （algorithmic iterative reticular synthesis）的机器学习指导的高通量实验平台，

来自主题: AI技术研报

9245 点击 2025-12-11 10:09

告别专家依赖，让机器人学会自我参考，仅需200步性能飙升至99.2%

你是否想过，机器人也能像人一样，从失败中学习，不断自我提升？

来自主题: AI技术研报

11027 点击 2025-12-11 10:08

沃顿商学院已发布4篇「Prompt」报告｜重磅

宾夕法尼亚大学沃顿商学院（The Wharton School）今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型（如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等），在极高难度的博士级基准测试（GPQA Diamond）上进行了数万次的严谨测试。

来自主题: AI技术研报

9918 点击 2025-12-10 16:11

00后大模型实习生「扒光」豆包手机！千字实测揭秘

一部AI手机，火爆全网。张嘴一句话，它在短短几秒内，就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......正巧，我们在小红书上吃瓜的时候，意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」，但我想说点什么》。

来自主题: AI技术研报

9459 点击 2025-12-10 14:38

深大团队让机器人听懂指令精准导航！成功率可达72.5%，推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构，提出视觉-语言导航（VLN）新框架——UNeMo。让机器人听懂指令，精准导航再升级！

来自主题: AI技术研报

7514 点击 2025-12-10 14:34

Percept-WAM：真正「看懂世界」的自动驾驶大脑，感知到行动的一体化模型

近日，来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM（Perception-Enhanced World–Awareness–Action Model）。该模型旨在在一个统一的大模型中，将「看见世界（Perception）」「理解世界（World–Awareness）」和「驱动车辆行动（Action）」真正打通，形成一条从感知到决策的完整链路。

来自主题: AI技术研报

7494 点击 2025-12-10 14:33

2比特复数模型媲美全精度！北大通用框架让大模型在手机上也能流畅运行

近日，北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。该框架通过广泛线性表示将实数模型无损转换为复数形式，再结合相位感知量化与递归残差量化，实现了在仅2比特的情况下，性能接近全精度模型的突破性进展。

来自主题: AI技术研报

8432 点击 2025-12-10 14:28

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

3万台首批备货被一抢而空、在二手市场价格翻番的当红炸子鸡“豆包手机”，更多技术详情得到证实。

来自主题: AI技术研报

10420 点击 2025-12-10 10:57

国产多模态AI再开源！实测截图转网页、搜图购物，价格减半

原生工具调用、128K上下文，图文创作仍有短板。

来自主题: AI技术研报

11850 点击 2025-12-10 10:51

客服、代码、法律场景适配：Milvus Ngram Index如何百倍优化LIKE查询| Milvus Week

本文为Milvus Week系列第6篇，该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报

9030 点击 2025-12-10 10:22

Light-X来了！全球首个「镜头×光照」双控4D视频生成框架，单目视频秒变电影级

仅凭一段随手拍摄的单目视频，是否能够让镜头在空间中自由飞行，让光线随意变换，让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」？这一过去被视作科幻设想的问题，如今迎来了明确答案。

来自主题: AI技术研报

10080 点击 2025-12-10 10:21

让AI像巴甫洛夫的狗一样学习？北航团队提出智能基础模型，跨越生物与AI鸿沟

假如你正在教一只小狗学习新技能。当你摇响铃铛然后给它食物，重复几次之后，只要一摇铃铛，即使没有食物，小狗也会留着口水跑过来。这就是著名的巴甫洛夫实验，它展现了生物是如何学习的。

来自主题: AI技术研报

6377 点击 2025-12-10 09:59

OpenAI最新报告曝光！前5%精英效率暴涨16倍，普通人却被悄悄淘汰

当你还在纠结要不要用一下AI时，OpenAI已经拎着8亿人的加班数据，在被谷歌和Anthropic逼到墙角的企业战场上拼命自救——到底是谁在每天白赚1小时，谁又在被时代悄悄淘汰？

来自主题: AI技术研报

10362 点击 2025-12-09 23:47

Snapchat提出Canvas-to-Image：一张画布集成 ID、姿态与布局

Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程，将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容，会被模型直接解释为生成指令，简化了图像生成过程中的控制流程。

来自主题: AI技术研报

11464 点击 2025-12-09 14:40

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。

来自主题: AI技术研报

10676 点击 2025-12-09 14:38

清华双成果颠覆蛋白质设计：AI 压缩序列空间，全自动进化工厂实现设计验证闭环

从去年到今年，清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果，它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI，以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。

来自主题: AI技术研报

7988 点击 2025-12-09 10:37

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图，好像它无所不知。但假如把它“扔”进一个真实的手术室，让它用主刀医生的第一视角来判断下一步该用哪把钳子，这位“学霸”很可能当场懵圈。

来自主题: AI技术研报

10006 点击 2025-12-09 10:37

如何优化英伟达CAGRA，实现GPU建图+CPU查询，成本效率兼顾

本文为Milvus Week系列第5篇，该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报

9321 点击 2025-12-09 10:36

100 万亿 Token 揭秘全球用户怎么用 AI：一半算力用在「不可描述」的地方

AI 领域迄今最大规模的用户行为实录，刚刚发布了。这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告，基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户。

来自主题: AI技术研报

10287 点击 2025-12-08 22:18

从分钟级等待到20倍超速：LightX2V重写AI视频生成速度上限

今年以来，开源项目LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红，单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质量视频生成，把“等几分钟出一段视频”变成“边看边出片”。

来自主题: AI技术研报

10557 点击 2025-12-08 14:46

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

最近，Google Research 发布了一篇 Blog《Titans + MIRAS：帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存，从而更快地工作并处理海量上下文。

来自主题: AI技术研报

11105 点击 2025-12-08 14:41

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

9829 点击 2025-12-08 14:13

DeepSeek V3到V3.2的进化之路，一文看全

12 月 1 日，DeepSeek 一口气发布了两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报

9971 点击 2025-12-08 12:48