AI技术研报-这里有最前沿的人工智能技术解读

系统学习Deep Research，这一篇综述就够了

近年来，大模型的应用正从对话与创意写作，走向更加开放、复杂的研究型问题。尽管以检索增强生成（RAG）为代表的方法缓解了知识获取瓶颈，但其静态的 “一次检索 + 一次生成” 范式，难以支撑多步推理与长期

来自主题: AI技术研报

8512 点击 2026-01-02 15:01

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

2026年新年第一天，DeepSeek上传新论文。给何恺明2016成名作ResNet中提出的深度学习基础组件“残差连接”来了一场新时代的升级。残差连接自2016年ResNet问世以来，一直是深度学习架构的基石。

来自主题: AI技术研报

9653 点击 2026-01-01 22:57

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

机器之心发布随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构（Mixture-of-Experts, MoE）及专家并行策略（Expert

来自主题: AI技术研报

10065 点击 2026-01-01 10:14

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」

近日，来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG，首次跳出「从模型自己内部信号来评估不确定性」的思维定式，转而用预训练语料的客观统计来量化不确定性，

来自主题: AI技术研报

9485 点击 2026-01-01 10:13

「视频世界模型」新突破：AI连续生成5分钟，画面也不崩

围绕这一挑战，上海人工智能实验室联合复旦大学、南京大学、南洋理工大学 S-Lab 等单位提出了 LongVie 2—— 一个能够生成长达 5 分钟高保真、可控视频的世界模型框架。

来自主题: AI技术研报

10119 点击 2026-01-01 10:11

DeepMind内部视角揭秘！Scaling Law没死，算力即一切

2026年，Scaling Law是否还能继续玩下去？对于这个问题，一篇来自DeepMind华人研究员的万字长文在社交网络火了：Scaling Law没死！算力依然就是正义，AGI才刚刚上路。

来自主题: AI技术研报

9466 点击 2026-01-01 10:10

7B扩散语言模型单样例1000+ tokens/s！上交大联合华为推出LoPA

，时长 00:20 视频 1：单样例推理速度对比：SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)（注：NVIDIA 平台

来自主题: AI技术研报

9099 点击 2026-01-01 10:09

阿里开源AI手机的“灵魂”，GUI智能体2B到235B四个版本全，端云协同成功率暴涨33%

AI手机的“灵魂”GUI智能体，就这么全套开源了。

来自主题: AI技术研报

10231 点击 2025-12-31 14:37

NUS尤洋教授深度探讨智能增长的瓶颈：或许我们将这样实现AGI？

新加坡国立大学（NUS）的尤洋教授近期发表了一篇深度分析：《智能增长的瓶颈》。在这篇分析文章中，尤洋教授从技术本质出发，直指智能增长的核心矛盾，为我们揭示了 AGI（通用人工智能）的可能路径。

来自主题: AI技术研报

11150 点击 2025-12-31 14:17

2026 刚开始 AI Coding，应该怎么选工具？｜Trae 开发者报告解析

很多人可能不知道，我是 Trae 的老用户。

来自主题: AI技术研报

11786 点击 2025-12-31 14:14

用Antigravity组建最强开发团队：Opus 4.5 + GPT-5.1-Codex-Max + Gemini 3 Pro

大家好，我是鲁工。上周发布了一篇关于如何在Antigravity中组合Claude Opus 4.5和Gemini 3 Pro进行交叉验证的文章，读者反馈不错。

来自主题: AI技术研报

11135 点击 2025-12-31 14:13

重塑语音安全！上海交大联合宇生月伴，研发高性能高泛化语音鉴伪大模型

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。

来自主题: AI技术研报

6715 点击 2025-12-31 14:12

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

2025最后几天，是时候来看点年度宝藏论文了。

来自主题: AI技术研报

6943 点击 2025-12-31 14:12

1.8B！腾讯开源新模型，1GB内存手机离线跑，媲美Qwen3-235B

能翻译33语种+5方言，医学术语/粤语翻译实测“能打”。

来自主题: AI技术研报

8965 点击 2025-12-31 10:34

自回归因果注意力也能并行解码？上交联合UCSD突破LLM推理瓶颈，模型代码全开源

在大语言模型（LLM）落地应用中，推理速度始终是制约效率的核心瓶颈。传统自回归（AR）解码虽能保证生成质量，却需逐 token 串行计算，速度极为缓慢；扩散型 LLM（dLLMs）虽支持并行解码，却面

来自主题: AI技术研报

8841 点击 2025-12-31 09:21

三维空间太难懂？RoboTracer让机器人理解复杂空间指令，推理3D空间轨迹，开放世界也能精确行动

我们希望具身机器人真正走进真实世界，尤其走进每个人的家里，帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控：物体种类多、摆放杂、随时会变化，这让机器人在三维物理世界中「看懂并做好」变得更难。

来自主题: AI技术研报

9909 点击 2025-12-31 08:32

给AI做微创手术：哈工大博士生发明新算法，5分钟让大模型减重近半

作为一名 AI 领域的博士生，徐玉庄的经历比较特殊。本科毕业于国防科技大学，随后在部队工作了 5 年，接着在清华大学获得硕士学位，目前在哈尔滨工业大学读博。

来自主题: AI技术研报

8571 点击 2025-12-31 08:30

Gemini Pro 学生优惠还能这么玩？免费 Opus 4.5 接入 Claude Code 实测

上上周跟大家盘了 Gemini 学生教育优惠。

来自主题: AI技术研报

11968 点击 2025-12-31 08:29

必须得让AI明白，有些不该碰的东西别碰（doge）

近期，以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，突破了传统纯文本CoT的限制，在视觉推理任务中取得了优异表现。

来自主题: AI技术研报

9176 点击 2025-12-31 08:29

Meta病急乱投医，Manus用户少了70%，还要花数十亿美金收购？｜非凡产研用数据带来真相

Manus被Meta收购的消息在AI圈刷屏了。交易细节尚未完全公开，但Meta的态度很明确：它不仅要把Manus的能力整合进自家产品（包括Meta AI），还计划继续把Manus作为独立服务运营和销

来自主题: AI技术研报

9836 点击 2025-12-30 17:25

清华朱军团队Nature Machine Intelligence：多模态扩散模型实现心血管信号实时全面监测

近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报

9769 点击 2025-12-30 15:14

ICLR史无前例！中国团队站上C位，全球AI顶会首次为它设专场

史上首次，ICLR成立后设立机制设计相关Workshop，全球顶流学者众神云集！

来自主题: AI技术研报

9514 点击 2025-12-30 11:21

我招了 6 个 AI 员工一起干活

大家好，我是艾逗笔。今天我花了一天时间，招聘了 6 个 AI 员工，帮助他们走完了入职流程，给他们分配了工作权限，了解了他们各自的特点和能力，然后安排了一个工作间，让他们在一起开始干活了。

来自主题: AI技术研报

9088 点击 2025-12-30 11:13

告别“音画割裂”与“人物崩坏”！AutoMV：首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报

8828 点击 2025-12-30 10:29

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注，其中，如何生成音视频对齐的内容是研究的重点。

来自主题: AI技术研报

8953 点击 2025-12-30 10:27

单agent落幕，双agent才能解决复杂问题！附LangGraph+Milvus实操

做agent简单，但是做能落地的agent难，做能落地的长周期agent更是难上加难！

来自主题: AI技术研报

9557 点击 2025-12-30 09:58

全景视觉的Depth Anything来了！Insta360推出DAP，200万数据打造全场景360°空间智能新高度

在空间智能（Spatial Intelligence）飞速发展的今天，全景视角因其 360° 的环绕覆盖能力，成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而，全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报

7441 点击 2025-12-30 09:57

Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

在 LLM Agent 领域，有一个常见的问题：Agent 明明 "看到了" 错误信息，却总是重蹈覆辙。

来自主题: AI技术研报

8985 点击 2025-12-30 09:54

SIGGRAPH Asia 2025｜当视频生成真正「看清一个人」：多视角身份一致、真实光照与可控镜头的统一框架

在电影与虚拟制作中，「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化，让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而，在当前大量 customizing video generation model 的研究中，这个最基本的事实，却往往被忽视。

来自主题: AI技术研报

9602 点击 2025-12-30 09:52

深度拆解沐曦MXMACA软件栈功能，算力自主+生态兼容，破解国产GPU落地难题

近日，刚刚 IPO 的国产 GPU 公司沐曦股份，完成了自上市后的首个重大技术发布。

来自主题: AI技术研报

10390 点击 2025-12-29 15:07

AI技术研报-这里有最前沿的人工智能技术解读

系统学习Deep Research，这一篇综述就够了

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

超DeepEP两倍！无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈，专为Agent爆发设计

动态RAG性能提升14个点！用4万亿token教会大模型 「什么时候该检索」

「视频世界模型」新突破：AI连续生成5分钟，画面也不崩

DeepMind内部视角揭秘！Scaling Law没死，算力即一切

7B扩散语言模型单样例1000+ tokens/s！上交大联合华为推出LoPA

阿里开源AI手机的“灵魂”，GUI智能体2B到235B四个版本全，端云协同成功率暴涨33%

NUS尤洋教授深度探讨智能增长的瓶颈：或许我们将这样实现AGI？

2026 刚开始 AI Coding，应该怎么选工具？｜Trae 开发者报告解析

用Antigravity组建最强开发团队：Opus 4.5 + GPT-5.1-Codex-Max + Gemini 3 Pro

重塑语音安全！上海交大联合宇生月伴，研发高性能高泛化语音鉴伪大模型

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

1.8B！腾讯开源新模型，1GB内存手机离线跑，媲美Qwen3-235B

自回归因果注意力也能并行解码？上交联合UCSD突破LLM推理瓶颈，模型代码全开源

三维空间太难懂？RoboTracer让机器人理解复杂空间指令，推理3D空间轨迹，开放世界也能精确行动

给AI做微创手术：哈工大博士生发明新算法，5分钟让大模型减重近半

Gemini Pro 学生优惠还能这么玩？免费 Opus 4.5 接入 Claude Code 实测

必须得让AI明白，有些不该碰的东西别碰（doge）

Meta病急乱投医，Manus用户少了70%，还要花数十亿美金收购？｜非凡产研用数据带来真相

清华朱军团队Nature Machine Intelligence：多模态扩散模型实现心血管信号实时全面监测

ICLR史无前例！中国团队站上C位，全球AI顶会首次为它设专场

我招了 6 个 AI 员工一起干活

告别“音画割裂”与“人物崩坏”！AutoMV：首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

单agent落幕，双agent才能解决复杂问题！附LangGraph+Milvus实操

全景视觉的Depth Anything来了！Insta360推出DAP，200万数据打造全场景360°空间智能新高度

Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

SIGGRAPH Asia 2025｜当视频生成真正「看清一个人」：多视角身份一致、真实光照与可控镜头的统一框架

深度拆解沐曦MXMACA软件栈功能，算力自主+生态兼容，破解国产GPU落地难题

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」