AI技术研报-这里有最前沿的人工智能技术解读

100 万亿 Token 揭秘全球用户怎么用 AI：一半算力用在「不可描述」的地方

AI 领域迄今最大规模的用户行为实录，刚刚发布了。这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告，基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户。

来自主题: AI技术研报

8227 点击 2025-12-08 22:18

从分钟级等待到20倍超速：LightX2V重写AI视频生成速度上限

今年以来，开源项目LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红，单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质量视频生成，把“等几分钟出一段视频”变成“边看边出片”。

来自主题: AI技术研报

8662 点击 2025-12-08 14:46

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

最近，Google Research 发布了一篇 Blog《Titans + MIRAS：帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存，从而更快地工作并处理海量上下文。

来自主题: AI技术研报

9092 点击 2025-12-08 14:41

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8102 点击 2025-12-08 14:13

DeepSeek V3到V3.2的进化之路，一文看全

12 月 1 日，DeepSeek 一口气发布了两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报

7485 点击 2025-12-08 12:48

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

如今，强化学习（RL）已成为提升大语言模型（LLM）复杂推理与解题能力的关键技术范式，而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性，LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报

5215 点击 2025-12-08 10:27

Gemini手搓3D粒子特效，体验现实版钢铁侠

无需懂一行代码，Gemini 3正在重塑3D交互创作的边界！详细对比了Canvas与AI Studio在开发场景下的独特优势，带你亲身体验这场「零门槛」的3D交互革命。

来自主题: AI技术研报

7651 点击 2025-12-08 09:53

近乎零成本破解模型幻觉！清华团队最新研究：逆向验证法，让 AI 停止“瞎扯”，只需先验证再作答

关于如何避免让大语言模型产生幻觉，一直以来的相关研究都非常多。

来自主题: AI技术研报

5154 点击 2025-12-08 09:47

谷歌祭出Transformer杀手，8年首次大突破！掌门人划出AGI死线

谷歌DeepMind掌门人断言，2030年AGI必至！不过，在此之前，还差1-2个「Transformer级」核爆突破。恰在NeurIPS大会上，谷歌甩出下一代Transformer最强继任者——Titans架构。

来自主题: AI技术研报

9998 点击 2025-12-08 08:59

他们让万亿参数RL学会了「省着跑」，顺便砍掉九成算力

2025年，AI大模型的竞争焦点正在发生根本性转移。

来自主题: AI技术研报

7070 点击 2025-12-08 08:57

Agent2025年终报告来了，UC伯克利、斯坦福和IBM联合发布

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷，并深度访谈了20个已经成功落地并产生价值的一线企业案例（涵盖金融、科技、医疗等领域）。试图回答一个最朴素的工程问题：一个能用的、赚钱的Agent，到底是用什么架构搭出来的？

来自主题: AI技术研报

5907 点击 2025-12-08 08:52

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

来自主题: AI技术研报

9327 点击 2025-12-08 08:51

浙大00后硕士破局AI记忆难题！新技术让长对话响应速度快十余倍

走上了堪称是“最佳 AI 转型路径”之后，他也在读研期间和合作者针对 AI 记忆开展了一项研究，借此发明出一种名为 LightMem（轻量记忆）的技术。在 LongMemEval 和 LoCoMo 这两个专门用于考察 AI 长期记忆能力的基准测试上，LightMem 回答问题的准确率全面超越之前的冠军模型，最高提升了 7% 以上，在某些数据集上甚至提升了将近 30%。

来自主题: AI技术研报

7109 点击 2025-12-06 11:15

无情淘汰PPT选手！美国AI创业圈，PhD才是敲门砖

在AI浪潮中，博士学位正成为创业者的新宠，取代了传统的MBA文凭。昔日辍学神话渐成例外，如今的技术精英们凭借科研深度，引领小型高效团队迅速崛起。

来自主题: AI技术研报

6430 点击 2025-12-06 11:12

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是：Titans：兼具RNN速度和Transformer性能的全新架构；MIRAS：Titans背后的核心理论框架。

来自主题: AI技术研报

6803 点击 2025-12-06 11:10

基于文本AI的终结？Agent协作可直接「复制思维」，Token效率暴涨

一直以来，传统 MAS 依赖自然语言沟通，各个 LLM 之间用文本交流思路。这种方法虽然可解释，但冗长、低效、信息易丢失。LatentMAS 则让智能体直接交换内部的隐藏层表示与 KV-cache 工作记忆，做到了：

来自主题: AI技术研报

6885 点击 2025-12-06 11:08

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

在 Text-to-Video / Image-to-Video 技术突飞猛进的今天，我们已经习惯了这样一个常识：视频生成的第一帧（First Frame）只是时间轴的起点，是后续动画的起始画面。

来自主题: AI技术研报

7772 点击 2025-12-06 11:03

告别「2D错觉」，SpatialActor通过解耦语义与几何，为具身智能注入强鲁棒空间基因

作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩，达到 SOTA 水平；在不同噪声条件下，性能提升了 13.9% 至 19.4%，展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral，并将于近期开源。

来自主题: AI技术研报

7214 点击 2025-12-06 10:59

视频模型也能推理，Sora2推理能力超过GPT-5

DeepWisdom研究团队提出：视频生成模型不仅能画画，更能推理。为了验证这一观点，团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理（spatial reasoning）能力的基准测试

来自主题: AI技术研报

7394 点击 2025-12-06 10:57

北航领衔发布300页代码智能综述：从基础模型到智能体，一次读懂Code LLM全景图

这篇学术论长文由北京航空航天大学复杂关键软件环境全国重点实验室领衔。《From Code Foundation Models to Agents and Applications》一文是对过去几年代码智能领域的一次系统梳理：模型、任务、训练、智能体、安全与应用都被串联成了一条完整、连贯的技术链路。

来自主题: AI技术研报

8062 点击 2025-12-06 10:54

人们用AI在做什么？答案藏在100万亿token背后

2025 年 12 月，硅谷风险投资机构 Andreessen Horowitz（简称 a16z）与 AI 推理服务平台 OpenRouter 联合发布了一份名为《State of AI》的研究报告。这份报告基于 OpenRouter 平台上超过 100 万亿 token 的真实用户交互数据，试图呈现过去一年间大语言模型在实际应用中的真实状态。

来自主题: AI技术研报

7966 点击 2025-12-06 10:22

Anthropic官宣PTC突破，中国开发者一年前就实现了

Anthropic发布了Programmatic Tool Calling（PTC）特性，让Claude通过代码编排工具执行，降低token消耗、减少延迟并提升准确性。

来自主题: AI技术研报

7526 点击 2025-12-05 14:48

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构（Native VLM），名曰NEO。要知道，此前主流的多模态大模型，例如我们熟悉的GPT-4V、Claude 3.5等，它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报

7975 点击 2025-12-05 14:46

大模型被确诊「视觉文盲」！多校联合提出MILO，为它植入空间想象力

大模型总是无法理解空间，就像我们难以想象四维世界。

来自主题: AI技术研报

7548 点击 2025-12-05 10:07

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

DeepSeek 一发布模型，总会引起业内的高度关注与广泛讨论，但也不可避免的暴露出一些小 Bug。

来自主题: AI技术研报

5699 点击 2025-12-05 10:05

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报

8187 点击 2025-12-05 09:27

Code LLM全景综述，从LLM到Agent，全文长303页，北航阿里字节等12家机构联合撰写｜最新

这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写，全文长达303页，是对当前“代码大模型（Code LLMs）”领域最详尽的百科全书式指南。

来自主题: AI技术研报

10479 点击 2025-12-05 09:24

语义+R-Tree空间索引：Milvus如何帮外卖APP做3公里内美食推荐| Milvus Week

本文为Milvus Week系列第三篇，该系列旨在分享Milvus的创新与实践成果，以下是DAY3内容划重点： Milvus2.6中，Zilliz借助Geolocation Index for Milvus，首次将地理空间数据与向量检索融合，使 AI 可以在理解语义的同时，理解空间。

来自主题: AI技术研报

9745 点击 2025-12-05 09:22

首个英文原生「弱智吧」！逻辑谬误数据集与生成框架来了 | AAAI'26

最近研究发现，大模型在判断逻辑谬误时容易「想太多」，误报正常句子，但在确定有谬误后，其分类能力较强。研究人员构建了首个高质量英文逻辑谬误基准SMARTYPAT-BENCH，并开发了基于Prolog的逻辑谬误自动生成框架SMARTYPAT，为大模型逻辑能力评估提供新思路，可用于谬误识别、辩论教育等领域。

来自主题: AI技术研报

8969 点击 2025-12-05 09:19

从MiniMax到DeepSeek：为何头部大模型都在押注「交错思维」？

昨日，有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、环境交互和工程化能力。

来自主题: AI技术研报

8701 点击 2025-12-04 16:25