AI技术研报-这里有最前沿的人工智能技术解读

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

对于电子产品，我们已然习惯了「出厂即巅峰」的设定：开箱的那一刻往往就是性能的顶点，随后的每一天都在折旧。

来自主题: AI技术研报

9211 点击 2026-01-07 10:14

Claude Code 实战一下午：它到底比普通大模型多做了什么？

这两年一直在关注 AI，Claude Code 给我带来的震撼，和当初 Nano Banana 在画图领域的革命，几乎是一个级别。

来自主题: AI技术研报

7839 点击 2026-01-07 10:12

新年第一周，智元这次发布，显露了雄心

现实世界不是 demo，人形机器人该如何进入真实世界？

来自主题: AI技术研报

9536 点击 2026-01-07 09:36

别被室内基准高分骗了：大模型是在推理空间，还是在「背答案」？

2025 年，随着李飞飞等学者将 “空间智能”（Spatial Intelligence）推向聚光灯下，这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA，似乎 AI 在训练中已经更好地读懂了三维空间。

来自主题: AI技术研报

9456 点击 2026-01-07 09:36

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

新年刚至，陈天桥携手代季峰率先打响开源大模型的第一枪。

来自主题: AI技术研报

10324 点击 2026-01-06 16:50

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

10729 点击 2026-01-06 16:46

为了解决95%AI项目的失败，我们需要让Agentic「回到未来」

您可能已经感受到了，从2025年开始到如今，全世界都在谈论Agentic AI或Agent（代理式AI）。从董事会到咨询公司，从更高级别的战略到街头巷尾，仿佛只要接入了大模型（LLM），所有的业务流程就能自动运转，效率就能翻倍。

来自主题: AI技术研报

11579 点击 2026-01-06 16:18

任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

BiCo是一种创新的AI视觉内容生成方法，能灵活组合图像和视频中的视觉概念，实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新，解决了现有方法在概念提取和组合上的问题，让AI真正理解并融合视觉元素。

来自主题: AI技术研报

6985 点击 2026-01-06 16:16

布局有志 l 头部公司的AI应用生态 l 中国

在上一篇《全载录丨Xsignal 全球AI应用行业年度报告丨2025》中，我们俯瞰了全球AI从“震撼期”迈入“深水区”的宏观版图。如果说那是一张新大陆的地图，那么今天，我们将目光聚焦于这场变革的“风暴眼”——中国头部科技公司的战略棋局。

来自主题: AI技术研报

10440 点击 2026-01-06 10:15

免费视频切片分析+脚本再创作，提示词分享。

嗨大家好！我是阿真！本来想刚到2026年一开始就给大家卷个大的，没想到一躺平就完全起不来，于是到了今天才回归，而且发的还是个备用稿哎嘿。

来自主题: AI技术研报

12149 点击 2026-01-06 10:14

李飞飞又被超越了？百万「普通视频」打造通用4D世界模型！

当全行业还在为昂贵的多视角数据焦头烂额时，中科院和CreateAI重磅推出NeoVerse，直接用百万单目视频砸开了4D世界模型的大门，让AI真正学会了理解开放世界。

来自主题: AI技术研报

7510 点击 2026-01-06 10:13

谷歌Antigravity的隐藏福利，让你免费用上 Gemini 3 Pro 和 Claude 4.5

关注我比较久的朋友可能都知道，我用 AI 有个习惯。

来自主题: AI技术研报

10288 点击 2026-01-06 09:53

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

8831 点击 2026-01-06 09:50

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

6572 点击 2026-01-06 09:30

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中，扩大生成模型规模往往能提升准确率，但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算，并保持检索与解码设置不变的前提下，系统比较了生成模型规模与检索语料规模的联合效应，发现扩充检索语料能够稳定增强 RAG，并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现，同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报

8763 点击 2026-01-06 09:30

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

8217 点击 2026-01-05 14:30

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

零成本降低大模型幻觉新方法，让DeepSeek准确率提升51%！

来自主题: AI技术研报

7959 点击 2026-01-05 14:28

语义分割别无脑用Argmax！港中文新算法：三行代码，推理速度提升10倍

香港中文大学提出了一个全新的算法框架RankSEG，用于提升语义分割任务的性能。传统方法在预测阶段使用threshold或argmax生成掩码，但这种方法并非最优。RankSEG无需重新训练模型，仅需在推理阶段增加三行代码，即可显著提高Dice或IoU等分割指标。

来自主题: AI技术研报

10175 点击 2026-01-05 14:27

Nano Banana不会应试！指标拉垮，视觉效果惊艳，实测14个任务

最新报告探讨了生成式模型Nano Banana Pro在低层视觉任务中的表现，如去雾、超分等，传统上依赖PSNR/SSIM等像素级指标。研究发现，Nano Banana Pro在视觉效果上更佳，但传统指标表现欠佳，因生成式模型更追求语义合理而非像素对齐。

来自主题: AI技术研报

10403 点击 2026-01-05 10:17

科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

你是否经历过这样的至暗时刻：明明实验数据已经跑通，核心逻辑也已梳理完毕，却在面对空白的 PPT 页面时陷入停滞；明明脑海里有清晰的系统架构，却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时；好不容易用 AI 生成了一张精美的流程图，却发现上面的文字是乱码，或者为了改一个配色不得不重新生成几十次……

来自主题: AI技术研报

11423 点击 2026-01-05 09:52

字节Seed：大概念模型来了，推理的何必是下一个token

LLM的下一个推理单位，何必是Token？刚刚，字节Seed团队发布最新研究——DLCM（Dynamic Large Concept Models）将大模型的推理单位从token（词）动态且自适应地推到了concept（概念）层级。

来自主题: AI技术研报

10456 点击 2026-01-04 21:01

前OpenAI CTO押注的赛道，被中国团队抢先跑通，AI「下半场」入场券人人有份

在大公司一路高歌猛进的 AI 浪潮里，小创业者和高校研究者正变得越来越迷茫。就连前段时间谷歌创始人谢尔盖・布林回斯坦福，都要回答「大学该何去何从」「从学术到产业的传统路径是否依然重要」这类问题。

来自主题: AI技术研报

7609 点击 2026-01-04 16:56

MIT发现让AI变聪明的秘密，竟然和人类一模一样

你有没有发现，你让AI读一篇长文章，结果它读着读着就忘了前面的内容？你让它处理一份超长的文档，结果它给出来的答案，牛头不对马嘴？这个现象，学术界有个专门的名词，叫做上下文腐化。这也是目前AI的通病：大模型的记忆力太差了，文章越长，模型越傻！

来自主题: AI技术研报

10186 点击 2026-01-04 16:53

500万人在线围观，Claude Code创建者的13条独家实战秘籍爆火

2026 新年第三天，Claude Code 创建者、负责人 Boris Cherny 开展「线上教学」，亲自示范他自己使用这个 AI 编程工具的工作流。

来自主题: AI技术研报

11252 点击 2026-01-04 16:50

为什么有人用 Claude Code 效率是你的 3 倍？秘密在这里

最近火的一塌糊涂的 Skills 很多群友在问是啥东东

来自主题: AI技术研报

7254 点击 2026-01-04 16:48

谷歌Vertex AI 1000美元赠金领取手把手教程

在深入了解如何领取赠金之前，让我们首先认识一下Google Cloud和Vertex AI这两项核心服务：

来自主题: AI技术研报

12038 点击 2026-01-04 16:10

AAAI 2026 | 小鹏联合北大，专为VLA模型定制视觉token剪枝方法，让端到端自动驾驶更高效

VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而，VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自动驾驶设计的，在自动驾驶场景中都具有局限性。

来自主题: AI技术研报

9811 点击 2026-01-04 15:22

MIT团队推出递归语言模型！不改架构、不扩窗口，上下文处理能力扩展百倍

新年伊始，MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L． Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language Models》的论文，提出了所谓“递归语言模型”（Recursive Language Models，简称 RLM）的推理策略。

来自主题: AI技术研报

7700 点击 2026-01-04 14:51

继2025推理模型之后，2026「递归模型」RLM要火了。

2025年的最后一天， MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口（Context Window），试图将窗口拉长到100万甚至1000万token时，这篇论文却冷静地指出了一个被忽视的真相：这就好比试图通过背诵整本百科全书来回答一个复杂问题，既昂贵又低效。

来自主题: AI技术研报

7154 点击 2026-01-04 11:43

机器人也怕疼！港城突破性电子皮肤：主动痛觉 + 损伤自检双buff拉满

这下，你打人形机器人，它真的会「疼」了。

来自主题: AI技术研报

8344 点击 2026-01-04 11:41