AI技术研报-这里有最前沿的人工智能技术解读

手把手教学NotebookLM生成细节可控，页数可控ppt

在上期内容发布后有很多小伙伴都反馈很好用 NotebookLM改不了细节？提示词 V2.0 生成既有质感，又能随意修改文字的完美 PPT

来自主题: AI技术研报

9457 点击 2026-01-09 09:49

美国AI一骑绝尘，中国平均落后7个月！Epoch AI新报告出炉

一张来自Epoch AI图表给出了一个冷静却尖锐的结论：中国AI平均落后7个月。一张图揭示真相：自2023年以来，前沿AI全部来自美国！最近，Epoch AI一份报告指出，中国AI模型的进展平均落后于美国7个月——最小差距为4个月，最大差距为14个月。

来自主题: AI技术研报

8651 点击 2026-01-08 16:16

从过拟合到通用！ViMoGen开启3D人体动作生成新纪元

随着 AIGC（Artificial Intelligence Generated Content）的爆发，我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而，3D 人体动作生成（3D MoGen）领域却稍显滞后。

来自主题: AI技术研报

8734 点击 2026-01-08 16:13

深入感知级别图像理解：UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

6291 点击 2026-01-08 15:23

多模态推理新范式！DiffThinker：用扩散模型「画」出推理和答案

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

7016 点击 2026-01-08 15:20

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

两天前，DeepSeek悄无声息地把R1的论文更新了，从原来22页「膨胀」到86页。DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！

来自主题: AI技术研报

8967 点击 2026-01-08 11:44

清华00后揪出AI幻觉元凶：仅0.1%神经元，一按就老实

近日，清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”，并给它们起了一个名字 H-神经元（幻觉神经元）。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

来自主题: AI技术研报

8177 点击 2026-01-08 09:25

谷歌看了都沉默：自家「黑科技」火了，但为啥研发团队一无所知？

当整个科技圈都在为「谷歌黑魔法」集体高潮时，真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」，不过是社交网络上AI生成的「赛博跳大神」。

来自主题: AI技术研报

9694 点击 2026-01-08 08:44

清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型

FaithLens 模型在忠实性幻觉检测任务上，达到了当前最优效果。

来自主题: AI技术研报

8704 点击 2026-01-08 08:43

GUI都流行四十年了！数据库操作怎么还和DOS一样难搞？

今天在讲Milvus的Attu之前，我们先来唠一段计算机行业的八卦。

来自主题: AI技术研报

8501 点击 2026-01-08 08:42

CC直接用，Manus核心Context技术被人做成了Skills

planning-with-files是开源社区最近疯传的一个Skill，发布仅四天收获3.3k star。目前还在持续增长。

来自主题: AI技术研报

10166 点击 2026-01-08 08:39

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

7852 点击 2026-01-07 18:35

Anthropic 社区负责人连更31条Claude Code技巧！比Claude Code创始人私藏的还硬核

昨天，Claude Code 的创造者 Boris Cherny 在 X 上发了一条长推，分享了他自己使用 CC 的 13 条私藏技巧，将近 400 万的阅读量，我昨天一睁眼几乎被刷屏了。

来自主题: AI技术研报

6674 点击 2026-01-07 17:25

分享6个平时我最常用的Prompt心法。

已经2026年了，其实还是看到很多朋友，说不知道怎么能更好的跟AI对话。

来自主题: AI技术研报

8688 点击 2026-01-07 17:24

prompt比拖拉拽更适合新手做复杂agent！LangSmith+Milvus教程

过去一段时间，我们介绍了很多小白入门级的agent框架，也介绍了包括langchain在内的很多专业级agent搭建框架。

来自主题: AI技术研报

8911 点击 2026-01-07 17:23

注意力机制大变革？Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界，但也并非完美，依然还是有竞争者，比如线性递归（Linear Recurrences）或状态空间模型（SSM）。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报

9155 点击 2026-01-07 17:22

大模型最难的AI Infra，用Vibe Coding搞定

Andrej Karpathy 大神力荐的 Vibe Coding，正在成为开发者的新宠。这种「只需聊一聊，AI 可以把功能写出来」的体验，极大提升了简单任务的开放效率。

来自主题: AI技术研报

8285 点击 2026-01-07 16:03

OpenAI前CTO首个创业产品Tinker，这里全量升级开放了，还有羊毛可薅

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward，optimizer step 等⼀系列基本原语，分离了算法设计等部分与分布式训练基础设施关联，

来自主题: AI技术研报

8572 点击 2026-01-07 15:30

开源1万小时具身智能数据，这家公司是为了什么？

想象一下，你正在训练一个未来的家庭机器人。你希望它能像人一样，轻松地叠好一件衬衫，整理杂乱的桌面，甚至系好一双鞋的鞋带。但最大的瓶颈是什么？不是算法，不是硬件，而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报

10326 点击 2026-01-07 10:16

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

对于电子产品，我们已然习惯了「出厂即巅峰」的设定：开箱的那一刻往往就是性能的顶点，随后的每一天都在折旧。

来自主题: AI技术研报

8383 点击 2026-01-07 10:14

Claude Code 实战一下午：它到底比普通大模型多做了什么？

这两年一直在关注 AI，Claude Code 给我带来的震撼，和当初 Nano Banana 在画图领域的革命，几乎是一个级别。

来自主题: AI技术研报

6806 点击 2026-01-07 10:12

新年第一周，智元这次发布，显露了雄心

现实世界不是 demo，人形机器人该如何进入真实世界？

来自主题: AI技术研报

8819 点击 2026-01-07 09:36

别被室内基准高分骗了：大模型是在推理空间，还是在「背答案」？

2025 年，随着李飞飞等学者将 “空间智能”（Spatial Intelligence）推向聚光灯下，这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA，似乎 AI 在训练中已经更好地读懂了三维空间。

来自主题: AI技术研报

8721 点击 2026-01-07 09:36

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

新年刚至，陈天桥携手代季峰率先打响开源大模型的第一枪。

来自主题: AI技术研报

9288 点击 2026-01-06 16:50

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

9847 点击 2026-01-06 16:46