AI技术研报-这里有最前沿的人工智能技术解读

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

人类一眼就能看懂的文字，AI居然全军覆没。

来自主题: AI技术研报

6811 点击 2025-09-10 12:00

从第一性原理出发的RAG推理新范式来了，蚂蚁DIVER登顶权威基准

在当前由大语言模型（LLM）驱动的技术范式中，检索增强生成（RAG）已成为提升模型知识能力与缓解「幻觉」的核心技术。然而，现有 RAG 系统在面对需多步逻辑推理任务时仍存在显著局限，具体挑战如下：

来自主题: AI技术研报

9560 点击 2025-09-10 11:07

Meta超级智能实验室首篇论文：重新定义RAG

Meta超级智能实验室的首篇论文，来了—— 提出了一个名为REFRAG的高效解码框架，重新定义了RAG（检索增强生成），最高可将首字生成延迟（TTFT）加速30倍。

来自主题: AI技术研报

8625 点击 2025-09-09 13:09

Claude Code的Sub-agents，烧了1000 美金才知道的血泪经验

自从 Claude code 上线 sub-agents 后，我一直对其抱很大的期待，每次做 case 都会搭建一支“AI coding 梦之队”。想象中，它们会在主 agent的协调下火力全开，完成我超级复杂的需求。

来自主题: AI技术研报

9298 点击 2025-09-09 11:27

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

8741 点击 2025-09-09 10:49

全流程国产GPU，上下文提速100倍！中国科学院发布「线性复杂度」类脑大模型

SpikingBrain借鉴大脑信息处理机制，具有线性/近线性复杂度，在超长序列上具有显著速度优势，在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x， 4M长度下保守估计速度提升超过100x；

来自主题: AI技术研报

6512 点击 2025-09-09 10:25

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

在大型语言模型（LLM）进行数学题、逻辑推理等复杂任务时，一个非常流行且有效的方法叫做 “自洽性”（Self-Consistency），通常也被称为“平行思考”。

来自主题: AI技术研报

6506 点击 2025-09-09 10:17

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

继π0后，具身智能基座模型在中国也终于迎来了真正的开源—— 刚刚，WALL-OSS宣布正式开源！在多项指标中，它还超越了π0。如果你是搞具身的开发者，了解它的基本资料，你就一定不会想错过它：

来自主题: AI技术研报

6771 点击 2025-09-08 17:16

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

经历了前段时间的鸡飞狗跳，扎克伯格的投资似乎终于初见成效。

来自主题: AI技术研报

7280 点击 2025-09-08 16:30

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

自2014 年提出以来，Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位，帮助模型在海量数据下保持稳定并实现较快收敛。

来自主题: AI技术研报

7630 点击 2025-09-08 16:18

具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上，视觉 - 语言 - 动作（Visual-Language-Action, VLA）模型使用大量机器人操作数据进行预训练，有望实现通用的具身操作能力。

来自主题: AI技术研报

6481 点击 2025-09-08 15:20

空间智能新高度：港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

香港科技大学谭平教授团队与地平线（Horizon Robotics）团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon，通过锚点图建立构建场景全局隐式表征，突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈，实现万帧级的场景表征抽取与定位重建，将空间智能「3D 表征与建模」前沿推向一个新的高度。

来自主题: AI技术研报

7732 点击 2025-09-08 10:19

SceneSplat: 基于3DGS的场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

开放词汇识别与分类对于全面理解现实世界的 3D 场景至关重要。目前，所有现有方法在训练或推理过程中都依赖于 2D 或文本模态。这凸显出缺乏能够单独处理 3D 数据以进行端到端语义学习的模型，以及训练此类模型所需的数据。与此同时，3DGS 已成为各种视觉任务中 3D 场景表达的重要标准之一。

来自主题: AI技术研报

6310 点击 2025-09-08 10:01

大模型破译甲骨文创下新SOTA！复旦团队推出新框架

让大模型破译从未见过的甲骨文，准确率拿下新SOTA！

来自主题: AI技术研报

9476 点击 2025-09-08 09:54

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首

OpenAI重磅结构调整：ChatGPT「模型行为」团队并入Post-Training，前负责人Joanne Jang负责新成立的OAI Labs。而背后原因，可能是他们最近的新发现：评测在奖励模型「幻觉」，模型被逼成「应试选手」。一次组织重组+评测范式重构，也许正在改写AI的能力边界与产品形态。

来自主题: AI技术研报

9186 点击 2025-09-07 12:20

震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

为了降低大模型预训练成本，最近两年，出现了很多新的优化器，声称能相比较AdamW，将预训练加速1.4×到2×。但斯坦福的一项研究，指出不仅新优化器的加速低于宣称值，而且会随模型规模的增大而减弱，该研究证实了严格基准评测的必要性。

来自主题: AI技术研报

8097 点击 2025-09-07 12:03

字节发了个机器人全能大模型，带队人李航

机器人终于不用散装大脑了！字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。

来自主题: AI技术研报

7656 点击 2025-09-07 11:57

设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25

清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa，解决传统模型「指标优秀但实际不可用」痛点，让AI生成贴合建筑师设计偏好的可行方案。

来自主题: AI技术研报

7334 点击 2025-09-07 11:53

任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式

在游戏、影视制作、虚拟人和交互式内容创作等行业中，高质量的 3D 动画是实现真实感与表现力的基础。然而，传统计算机图形学中的动画制作通常依赖于骨骼绑定与关键帧编辑，这一流程虽然能够带来高质量与精细控制，但需要经验丰富的艺术家投入大量人力与时间，代价昂贵。

来自主题: AI技术研报

8412 点击 2025-09-07 11:38

调整训练数据出场顺序，大模型就能变聪明！无需扩大模型/数据规模

模型训练重点在于数据的数量与质量？其实还有一个关键因素—— 数据的出场顺序。

来自主题: AI技术研报

6722 点击 2025-09-07 11:26

OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首

AI 最臭名昭著的 Bug 是什么？不是代码崩溃，而是「幻觉」—— 模型自信地编造事实，让你真假难辨。这个根本性挑战，是阻碍我们完全信任 AI 的关键障碍。

来自主题: AI技术研报

7000 点击 2025-09-07 11:21

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

能看懂视频并进行跨模态推理的大模型Keye-VL 1.5，快手开源了。

来自主题: AI技术研报

7721 点击 2025-09-06 12:44

沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了

在端侧 AI 这个热门赛道，华为盘古大模型扔下了一颗 “重磅炸弹” 。

来自主题: AI技术研报

8366 点击 2025-09-06 12:28

不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂

想象一个虚拟人，他不仅能精准地对上你的口型，还能在你讲到关键点时做出恍然大悟的表情，在你讲述悲伤故事时流露出同情的神态，甚至能根据你的话语逻辑做出有意义的手势。

来自主题: AI技术研报

7663 点击 2025-09-06 12:23

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

近年来，生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而，在现实世界应用中，动态环境下的数据分布和任务需求不断变化，大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报

8391 点击 2025-09-06 11:50

长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍

VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文：检索到的参考视角刚好看过你现在要渲染的表面区域；让模型在小上下文里也能保持长时一致性；实测4.2s/帧，比常规21帧上下文的管线快~12倍。

来自主题: AI技术研报

7368 点击 2025-09-06 11:43

0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道

苹果研究人员发现，在大模型中，极少量的参数，即便只有0.01%，仍可能包含数十万权重，他们将这一发现称为「超级权重」。超级权重点透了大模型「命门」，使大模型走出「炼丹玄学」。

来自主题: AI技术研报

8012 点击 2025-09-06 11:27

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

人形机器人对跳舞这件事，如今是越来越擅长了。北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案：通过创新的“分治-精炼-融合”三级架构，该系统首次实现人形机器人在多样化动作中的稳定控制。

来自主题: AI技术研报

6952 点击 2025-09-06 11:21

字节Seed最新版原生智能体来了！一个模型搞定手机/电脑/浏览器自主操作

AI自己玩手机、玩电脑、操作网页浏览器……背后还只靠一个模型。卷王字节Seed又把智能体带到了一个全新level~

来自主题: AI技术研报

7169 点击 2025-09-05 15:58

别只用 Nano Banana 生图了，视频生成才是王炸组合，这些隐藏玩法真香

Nano banana 爆火之后，果真催生了很多 App。这些 App 的创意目前都还是仅停留在对照片的编辑上，而没有探索进一步的玩法。

来自主题: AI技术研报

8084 点击 2025-09-05 15:54