AI技术研报-这里有最前沿的人工智能技术解读

AI又封神了！华人新作直出憨豆+《猫和老鼠》，平行宇宙对上戏了

憨豆先生坐在《猫和老鼠》的客厅里，汤姆在一旁跌进油漆桶，杰瑞躲在沙发后偷笑。这一幕，不是梦，也不是恶搞，而是AI真实生成的画面。在最新一篇论文中，研究者让从未共存的角色相遇，并解决了「风格错乱」的世纪难题。也许，我们正在迎接一个虚构与真实彻底混合的时代。

来自主题: AI技术研报

9839 点击 2025-11-17 10:21

WithAnyone重磅开源：这可能是你见过最自然的AI合照模型

和任何人，去任何地方！复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒，重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片，就能一键生成自然、真实、毫无违和感的 AI 合照！

来自主题: AI技术研报

9744 点击 2025-11-17 10:20

LLM为什么能替你操作电脑？4个关键技术让AI拥有"操作系统级"能力｜Agent和工作流的区别就在这

如何构建一个真正意义上的“自主代理”（Agent），而不是一个“带LLM的高级工作流”？让钢铁侠中的“贾维斯”（J.A.R.V.I.S.）真正来到现实，不仅能对话，还能调动资源、控制机械、在复杂战局中自主执行多步任务。

来自主题: AI技术研报

7283 点击 2025-11-17 10:19

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

9119 点击 2025-11-17 09:53

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准来了。

来自主题: AI技术研报

8155 点击 2025-11-17 09:25

EMNLP2025 | 通研院揭秘MoE可解释性，提升Context忠实性！

在大模型研究领域，做混合专家模型（MoE）的团队很多，但专注机制可解释性（Mechanistic Interpretability）的却寥寥无几 —— 而将二者深度结合，从底层机制理解复杂推理过程的工作，更是凤毛麟角。

来自主题: AI技术研报

9321 点击 2025-11-17 09:25

AAAI 2026｜教会视频扩散模型「理解科学现象」：从初始帧生成整个物理演化

近年来，Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳，但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”：如下视频所示，生成的流体很容易产生违背物理直觉的现象，比如气旋逆向旋转或整体平移等等。

来自主题: AI技术研报

10779 点击 2025-11-17 09:22

3D视觉被过度设计？字节Depth Anything 3来了，谢赛宁点赞

机器之心报道编辑：泽南、杨文现在，只需要一个简单的、用深度光线表示训练的 Transformer 就行了。这项研究证明了，如今大多数 3D 视觉研究都存在过度设计的问题。本周五，AI 社区最热

来自主题: AI技术研报

7586 点击 2025-11-16 11:27

AI「牛顿」来了！北大团队新突破，看一眼数据就能推出物理定律

人类数千年的科学探索，如今被AI「顿悟」瞬间复刻。北京大学研究团队推出的名为AI-Newton的AI系统，重新发现了牛顿第二定律、能量守恒定律和万有引力定律等基础规律，这一成果被视作AI驱动自主科学发现的一项重要进展。

来自主题: AI技术研报

8818 点击 2025-11-16 11:03

NeurIPS 2025｜当AI学会"炒股"：用千个虚拟投资者重现金融市场涌现现象

市场不是机器，而是人群；不是公式，而是故事。TwinMarket让AI学会讲述这些故事。 1994年，美国圣塔菲研究所（Santa Fe Institute）推出了一个野心勃勃的项目：人工股票市场（A

来自主题: AI技术研报

7630 点击 2025-11-16 10:40

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案：搜索自博弈 Search Self-play（SSP）⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是：让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」，它们在对抗训练中共同进化，使训练难度随着模型能⼒动态提升，最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

来自主题: AI技术研报

6287 点击 2025-11-16 10:36

OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为

就在今天，OpenAI 发布了一项新研究，使用新方法来训练内部机制更易于解释的小型稀疏模型，其神经元之间的连接更少、更简单，从而观察它们的计算过程是否更容易被人理解。

来自主题: AI技术研报

7445 点击 2025-11-15 17:47

GPT-4o准确率仅为24%！权威中文教育基准：知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench，首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后，实验结果显示：GPT-4o等顶尖AI会做题，却在启发思维、情感支持等育人能力上远不及人类，暴露AI当老师的关键短板。

来自主题: AI技术研报

7156 点击 2025-11-15 10:15

NeurIPS Spotlight｜GHAP：把3DGS“剪枝”变成“重建更小的高斯世界”

在三维视觉领域，3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”，拼合成一个高质量的三维世界，就像是把一片空白的舞台，用彩色的光斑和粒子逐渐铺满，最后呈现出一幅立体的画卷。

来自主题: AI技术研报

8510 点击 2025-11-15 10:13

OpenAI拆开AI「黑箱」，终于可以看懂GPT在想什么了

刚刚，在理解大模型复杂行为的道路上，OpenAI又迈出了关键一步。他们从自己训练出来的稀疏模型里，发现存在结构小而清晰、既可理解又能完成任务的电路（这里的电路，指神经网络内部一组协同工作的特征与连接模式，是AI可解释性研究的一个术语）。

来自主题: AI技术研报

8015 点击 2025-11-15 10:09

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文，狠狠反击了一把DiT（Diffusion Transformer）。这篇来自字节跳动商业化技术团队的论文，则是提出了一个名叫InfinityStar的方法，一举兼得了视频生成的质量和效率，为视频生成方法探索更多可能的路径。

来自主题: AI技术研报

8167 点击 2025-11-14 14:25

FDA对偶锚点：模型知识迁移的新视角——从参数空间到输入空间

研究者们提出了 FDA（Model Merging with Functional Dual Anchors）——一个全新的模型融合框架。与传统的参数空间操作不同，FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点，通过功能对偶的方式实现更高效的知识整合。

来自主题: AI技术研报

7279 点击 2025-11-14 13:57

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

多模态大语言模型（MLLMs）在处理来自图像和文本等多种来源的信息时能力强大。然而，一个关键挑战随之而来：当这些模态呈现相互冲突的信息时（例如，图像显示一辆蓝色汽车，而文本描述它为红色），MLLM必须解决这种冲突。模型最终输出与某一模态信息保持一致的行为，称之为“模态跟随”（modality following）

来自主题: AI技术研报

7908 点击 2025-11-14 13:54

不只是UI，都要下岗位了？新的AI UI+交互工具来了！飞书智能体+nanobanana也能生成UI了！

现在ai工具的发展真是日新月异，很多互联网从业者通过ai工具搭建工作流来帮助自己提高工作效率。不管怎么说吧，打不过就要加入，与其天天抱怨不如来看看用这些工具能不能帮你提高核心竞争力。

来自主题: AI技术研报

8440 点击 2025-11-14 10:56

AI产品的需求文档怎么写，与传统产品的PRD有何异同（附模版）

我们仍在用 10 年前的思维框架，描述10年后的产品形态 “AI产品革命”都快三年了，还没个像样的 PRD 模板出来，实在不像样。这篇文章，或许可以“救命”： 1. 论述传统产品与 AI 产品的 P

来自主题: AI技术研报

8823 点击 2025-11-14 10:32

Memory和RAG的区别在哪？用「上下文工程」做出个性化 AI（谷歌白皮书精读）

谷歌在第三天发布了《上下文工程：会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出，LLM模型本身是无状态的 (stateless)。如果要构建有状态的（stateful）和个性化的 AI，关键在于上下文工程。

来自主题: AI技术研报

6463 点击 2025-11-14 10:22

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

10549 点击 2025-11-14 10:21

LeCun在Meta的最后一篇论文

《LeJEPA：无需启发式的可证明且可扩展的自监督学习》。

来自主题: AI技术研报

6604 点击 2025-11-14 10:20

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

6066 点击 2025-11-14 10:18

只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日，来自北京大学与BeingBeyond的研究团队提出DemoHLM框架，为人形机器人移动操作（loco-manipulation）领域提供一种新思路——仅需1次仿真环境中的人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

来自主题: AI技术研报

8180 点击 2025-11-14 09:44