AI技术研报-这里有最前沿的人工智能技术解读

AI Agent最新「Memory」综述｜多所顶尖机构联合发布

就在昨天，新加坡国立大学、中国人民大学、复旦大学等多所顶尖机构联合发布了一篇AI Agent 记忆（Memory）综述。

来自主题: AI技术研报

9950 点击 2025-12-17 09:21

临床PK完胜ChatGPT-5！国内团队造出首个OCT影像AI系统

通用大模型（LLM）的狂飙突进，终于在医疗垂直领域的「最后一公里」撞上了硬墙。虽然 ChatGPT 在 USMLE（美国执业医师资格考试）中表现优异，但在面对需要「火眼金睛」和「毫厘必争」的心脏手术台上，通用大模型的表现究竟如何？

来自主题: AI技术研报

9100 点击 2025-12-16 17:23

英伟达开源发布最新AI模型！引入突破性专家混合架构，推理性能超越Qwen3和GPT，百万token上下文，模型数据集全开源！

就在刚刚，英伟达正式开源发布了其新一代AI模型：NVIDIA Nemotron 3。Nemotron 3 系列由三种型号组成：Nano、Super 和 Ultra。官方介绍其具备强大的智能体、推理和对话能力。

来自主题: AI技术研报

10476 点击 2025-12-16 17:21

Thinking Machines首款产品重大更新：K2 Thinking、Qwen3-VL都可以微调了

当前，AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时，也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab。

来自主题: AI技术研报

6948 点击 2025-12-16 16:31

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

8595 点击 2025-12-16 16:27

医疗AI迎来大考！南洋理工发布首个LLM电子病历处理评测 | AAAI'26

南洋理工大学研究人员构建了EHRStruct基准，用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务，包含2200个样本，按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型，数据驱动任务表现更强，输入格式和微调方式对性能有显著影响。

来自主题: AI技术研报

10909 点击 2025-12-16 16:27

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。

来自主题: AI技术研报

7254 点击 2025-12-16 16:26

Veo何止生成视频：DeepMind正在用它模拟整个机器人世界

随着通用型（Generalist）机器人策略的发展，机器人能够通过自然语言指令在多种环境中完成各类任务，但这也带来了显著的挑战。

来自主题: AI技术研报

10896 点击 2025-12-16 14:39

阿里妈妈发布MUSE：用多模态搞定十万级超长行为序列，并开源Taobao-MM数据集

如果把用户在互联网上留下的每一个足迹都看作一段记忆，那么现在的推荐系统大多患有 “短期健忘症”。

来自主题: AI技术研报

10234 点击 2025-12-16 14:38

推特吵架吵出篇论文！谢赛宁团队新作iREPA只要3行代码

要说真学术，还得看推特。

来自主题: AI技术研报

7123 点击 2025-12-16 14:37

1100多个模型殊途同归，指向一个「通用子空间」，柏拉图又赢一回？

模型架构的重要性可能远超我们之前的认知。

来自主题: AI技术研报

9112 点击 2025-12-16 14:36

用Nano Banana做PPT爆火，开源项目狂揽3K+星标！

前有 vibe coding ，随着 nano banana 升级 pro， vibe PPT 也跟着来了。最近我在 GitHub 上挖到一个项目：banana slides 。这是一个基于 nano banana pro 的原生 AI PPT 生成应用。

来自主题: AI技术研报

12114 点击 2025-12-16 10:42

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

最近，网友们已经被AI「手指难题」逼疯了。给AI一支六指手，它始终无法正确数出到底有几根手指！说吧AI，你是不是在嘲笑人类？其实这背后，暗藏着Transformer架构的「阿喀琉斯之踵」……

来自主题: AI技术研报

7394 点击 2025-12-16 10:37

Prompt、Context engineering 又向前进化了，3个关键维度+5个具体杠杆｜谷歌

我们正处在一个AI Agent（智能体）爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm（多智能体蜂群），新的架构层出不穷。但在这些眼花缭乱的名词背后，开发者的工作往往更像是一门“玄学”，我们凭直觉调整提示词，凭经验增加Agent的数量，却很难说清楚为什么某个架构在特定任务上表现更好。

来自主题: AI技术研报

9341 点击 2025-12-16 09:59

AI模型价格下降1000倍，为什么我们支出的成本没有随之降低？

2025年12月12日，波士顿大学的 Andrey Fradkin 团队发布了一项令业界瞩目的研究《The Emerging Market for Intelligence: Pricing, Supply, and Demand for LLMs》（智能的新兴市场：LLM的定价、供给与需求）。

来自主题: AI技术研报

9523 点击 2025-12-16 09:58

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

压缩即智能，又有新进展！

来自主题: AI技术研报

9812 点击 2025-12-16 09:56

NeurIPS 2025｜指哪打哪，可控对抗样本生成器来了！

近日，在全球人工智能领域最具影响力的顶级学术会议 NeurIPS（神经信息处理系统大会）上，清华大学和蚂蚁数科联合提出了一种名为 Dual-Flow 的新型对抗攻击生成框架。

来自主题: AI技术研报

7495 点击 2025-12-16 09:55

OpenAI开源99.9%权重为0的奇葩模型，我扒完了论文，发现他们想重做AI大脑

AI 的脑回路，终于也开始学会做减法了。

来自主题: AI技术研报

9700 点击 2025-12-16 09:53

2025AI搜索战略解析：范式革命、生态博弈与信任重构

2025年，AI搜索行业进入了“模型商品化，分发定生死”的新阶段。全球市场正经历一场双重变革：商业模式：传统搜索巨头（Google）陷入严重的“创新者窘境”，庞大的广告营收成为其拥抱AI的最大掣肘；而挑战者（Perplexity, OpenAI）则通过“答案即行动”重塑商业闭环。

来自主题: AI技术研报

9615 点击 2025-12-16 09:44

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

近年来，视频大语言模型在理解动态视觉信息方面展现出强大能力，成为处理真实世界多模态数据的重要基础模型。然而，它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报

7251 点击 2025-12-16 09:19

高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

在大型语言模型（LLM）的应用落地中，RAG（检索增强生成）是解决模型幻觉和知识时效性的关键技术。

来自主题: AI技术研报

11054 点击 2025-12-16 09:18

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。

来自主题: AI技术研报

9614 点击 2025-12-16 09:17

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

自 Sora 2 发布以来，各大科技厂商迎来新一轮视频生成模型「军备竞赛」，纷纷赶在年底前推出更强的迭代版本。

来自主题: AI技术研报

7676 点击 2025-12-16 09:15

狂揽162K Star！n8n 2.0强势来袭，这次改动有点狠。

大家好，我是继续研究n8n的袋鼠帝还记得我第一次给大家推荐n8n这款开源工作流自动化神器的时候吗（今年4月）

来自主题: AI技术研报

11514 点击 2025-12-15 16:43

AAAI 2026 | 革新电影配音工业流程：AI首次学会「导演-演员」配音协作模式

你是否也觉得，AI 配音的语调总是差了那么点 “人情味”？它能把台词念得字正腔圆，口型分秒不差，但角色的喜怒哀乐却总是难以触及灵魂深处。

来自主题: AI技术研报

11147 点击 2025-12-15 16:22

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

北大团队发布化学大模型基准SUPERChem，这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足，系统构建了评估大语言模型化学推理能力的新体系。

来自主题: AI技术研报

10229 点击 2025-12-15 15:16

8B模型任务击败GPT-5？阶跃星辰开源Deep Think新框架，小模型解锁百万Token测试时计算

8B 模型在数学竞赛任务上超越 GPT-5！

来自主题: AI技术研报

11015 点击 2025-12-15 14:54

SIGGRAPH Asia 2025｜30FPS普通相机恢复200FPS细节，4D重建方案来了

当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度，当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋，当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机，把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空，成为 3D 视觉领域的一个难题。

来自主题: AI技术研报

9377 点击 2025-12-15 14:50

24岁博士生造出空间AI大师G²VLM，让机器人眼明手快

近日，24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型，它是一位拥有空间超能力的视觉语言小能手，不仅能从普通的平面图片中精准地重建出三维世界，还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报

6476 点击 2025-12-15 14:49

「美国贴吧」被 AI 水军攻陷：为了证明是人类，2400 万用户被迫像傻瓜一样说话

「这是一项革命性的工作」、「不是……而是……」、「首先……其次……」；在一篇文章里读到这些词，你是不是本能地开始觉得，有点不对劲了。

来自主题: AI技术研报

11314 点击 2025-12-15 12:39

AI技术研报-这里有最前沿的人工智能技术解读

AI Agent最新「Memory」综述 ｜多所顶尖机构联合发布

临床PK完胜ChatGPT-5！国内团队造出首个OCT影像AI系统

英伟达开源发布最新AI模型！引入突破性专家混合架构，推理性能超越Qwen3和GPT，百万token上下文，模型数据集全开源！

Thinking Machines首款产品重大更新：K2 Thinking、Qwen3-VL都可以微调了

让扩散模型「可解释」不再降质，开启图片编辑新思路

医疗AI迎来大考！南洋理工发布首个LLM电子病历处理评测 | AAAI'26

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

Veo何止生成视频：DeepMind正在用它模拟整个机器人世界

阿里妈妈发布MUSE：用多模态搞定十万级超长行为序列，并开源Taobao-MM数据集

推特吵架吵出篇论文！谢赛宁团队新作iREPA只要3行代码

1100多个模型殊途同归，指向一个「通用子空间」，柏拉图又赢一回？

用Nano Banana做PPT爆火，开源项目狂揽3K+星标！

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

Prompt、Context engineering 又向前进化了，3个关键维度+5个具体杠杆 ｜谷歌

AI模型价格下降1000倍，为什么我们支出的成本没有随之降低？

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

NeurIPS 2025｜指哪打哪，可控对抗样本生成器来了！

OpenAI开源99.9%权重为0的奇葩模型，我扒完了论文，发现他们想重做AI大脑

2025AI搜索战略解析：范式革命、生态博弈与信任重构

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

高精度知识库≠Milvus+llm！这份PaddleOCR+混合检索+Rerank技巧请收好

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

狂揽162K Star！n8n 2.0强势来袭，这次改动有点狠。

AAAI 2026 | 革新电影配音工业流程：AI首次学会「导演-演员」配音协作模式

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

8B模型任务击败GPT-5？阶跃星辰开源Deep Think新框架，小模型解锁百万Token测试时计算

SIGGRAPH Asia 2025｜30FPS普通相机恢复200FPS细节，4D重建方案来了

24岁博士生造出空间AI大师G²VLM，让机器人眼明手快

「美国贴吧」被 AI 水军攻陷：为了证明是人类，2400 万用户被迫像傻瓜一样说话

AI Agent最新「Memory」综述｜多所顶尖机构联合发布

Prompt、Context engineering 又向前进化了，3个关键维度+5个具体杠杆｜谷歌