AI技术研报-这里有最前沿的人工智能技术解读

2026年，大模型训练的下半场属于「强化学习云」

2024 年底，硅谷和北京的茶水间里都在讨论同一个令人不安的话题：Scaling Law 似乎正在撞墙。

来自主题: AI技术研报

9809 点击 2026-01-12 15:13

AAAI 2026 Oral｜快手提出全新「检索数据引擎」CroPS，打破搜索信息茧房

短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而，当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据，导致系统陷入信息茧房，难以召回潜在相关的新鲜内容。

来自主题: AI技术研报

6586 点击 2026-01-12 14:08

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是：当问题不再能 “用语言说清楚” 时，模型还能不能 “看懂”？

来自主题: AI技术研报

10398 点击 2026-01-12 14:07

具身开源模型新王！千寻Spirit v1.5模型登顶 RoboChallenge，终结 Pi0.5领跑时代

事情开始变得有趣起来了。

来自主题: AI技术研报

7359 点击 2026-01-12 10:32

Sakana让AI互相「猎杀」，而它们开始了趋同进化

想象一下，一群 AI 程序在一台虚拟计算机里相互猎杀，目标只有一个：生存。

来自主题: AI技术研报

11528 点击 2026-01-12 10:32

小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

小模型身上的“秘密”这下算是被扒光了！

来自主题: AI技术研报

8485 点击 2026-01-12 10:30

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

9861 点击 2026-01-12 10:29

DeepMind发布SIMA 2！打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2，让智能体能在虚拟环境（商业游戏）中，边聊天边进行复杂的多模态推理。作为具身通用智能的原型，SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报

8751 点击 2026-01-12 10:00

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

8520 点击 2026-01-12 09:34

DeepSeek-OCR是「长文本理解」未来方向？中科院新基准VTCBench给出答案

近期，DeepSeek-OCR 凭借其创新的「视觉文本压缩」（Vision-Text Compression, VTC）范式引发了技术圈的高度关注。为了解答这一疑问，来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报

8370 点击 2026-01-11 10:01

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说，智能体在完成任务的同时，还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报

9914 点击 2026-01-11 10:01

打破学科壁垒！400篇参考文献重磅综述，统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》，首次打破认知神经科学与人工智能之间的学科壁垒，系统性地将人脑记忆机制与 Agents 记忆统一审视，

来自主题: AI技术研报

10463 点击 2026-01-11 10:00

一年后，DeepSeek-R1的每token成本降到了原来的1/32

几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容，包括首次公开训练全路径，即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline，以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报

9010 点击 2026-01-10 17:02

杀死那篇PDF：一场由AI发起的学术出版大革命，正彻底终结传统论文

论文将汇总人类从出生到死亡每个神经元的活动情况。利用更完善的“分子记录带”（molecular ticker tape）技术，神经元每发出一个电脉冲，都会在其蛋白链上加上一段荧光分子。通过对这些蛋白链进行测序，可以获得神经元整个生命周期内神经活动的完整历史记录。同时对每个神经元的mRNA进行测序，可以确定它属于10.4万个神经元类型中的哪一种。

来自主题: AI技术研报

8354 点击 2026-01-10 17:00

AAAI 2026 Oral | 大模型「爱你在心口难开」？深度隐藏认知让推理更可靠

近年来，大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展，很大程度上依赖于思维链（CoT）技术。所谓 CoT，就是让模型在给出最终答案前，先生成一系列类似「解题步骤」的中间推理。这种方式

来自主题: AI技术研报

7333 点击 2026-01-10 17:00

一文搞懂 Agents 评测丨Anthropic 最新万字长文

Agent 并不是一次性输出的系统。它们运行在多轮交互之中：调用工具、修改内部状态、根据中间结果不断调整策略。也正是这些让 Agent 变得有用的能力 ——自主性、智能性与灵活性 —— 同时也让它们变得更难以评估。

来自主题: AI技术研报

10040 点击 2026-01-10 10:36

大模型如何泛化出多智能体推理能力？清华提出策略游戏自博弈方案MARSHAL

近日，清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习，让大模型在策略游戏中进行自博弈（Self-Play）。实验表明，这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报

9419 点击 2026-01-10 10:16

让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

上海AI Lab联合多家机构开源的Yume1.5，针对这一核心难题提出了时空信道联合建模（TSCM），在长视频生成中实现了近似恒定计算成本的全局记忆访问。

来自主题: AI技术研报

8378 点击 2026-01-09 14:36

CaveAgent让LLM学会了“跑代码”，你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单：与其让LLM费力地去“读”数据的文本快照，不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学（HKUST）领衔的研究，为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报

9443 点击 2026-01-09 14:34