AI技术研报-这里有最前沿的人工智能技术解读

超越Runway！Adobe发布新神器：P视频比P图还简单

全新AI工具EditVerse将图片和视频编辑整合到一个框架中，让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力，EditVerse解决了传统视频编辑复杂、数据稀缺的问题，还能实现罕见的「涌现能力」。在效果上，它甚至超越了商业工具Runway，预示着一个创作新纪元的到来。

来自主题: AI技术研报

8924 点击 2025-10-25 10:42

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

为破解大模型长思维链的效率难题，并且为了更好的端到端加速落地，我们将思考早停与投机采样无缝融合，提出了 SpecExit 方法，利用轻量级草稿模型预测 “退出信号”，在避免额外探测开销的同时将思维链长度缩短 66%，vLLM 上推理端到端加速 2.5 倍。

来自主题: AI技术研报

8438 点击 2025-10-24 16:53

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

来自主题: AI技术研报

8066 点击 2025-10-24 16:45

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

7877 点击 2025-10-24 10:51

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

5945 点击 2025-10-24 10:33

Meta「透视」AI思维链：CRV推理诊断，准确率达 92%！

在最近一篇来自Meta FAIR团队的论文里，研究者找到了一种前所未有的方式——他们能实时看到AI的思考过程。这项名为CRV的方法，通过替换模型内部的MLP模块，让每一步推理都变得「可见」。这不是隐喻，而是可量化的现象。Meta用它让错误检测精度提升到92.47%，也让人类第一次得以窥见AI是怎么想错的。

来自主题: AI技术研报

9533 点击 2025-10-24 10:19

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中，SFT（监督微调）几乎成为主流流程的一部分，被广泛应用于各类下游任务和专用场景。比如，在医疗领域，研究人员往往会用领域专属数据对大模型进行微调，从而显著提升模型在该领域特定任务上的表现。

来自主题: AI技术研报

8166 点击 2025-10-24 10:13

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报

8022 点击 2025-10-23 16:22

告别黑箱解释！首个潜变量自动解释框架 | CIKM'25

我们被「黑箱」困住了！深度生成模型虽能创造逼真内容，但其内部运作机制如同「黑箱」，潜变量的意义难以捉摸。埃默里大学团队提出LatentExplainer框架，巧妙地将潜在变量转化为易懂解释，大幅提升模型解释质量与可靠性。

来自主题: AI技术研报

6896 点击 2025-10-23 16:09

搜索智能体的关键一课：先立目标，再照镜子

随着 AI 能力不断增强，它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」，让它主动去搜集信息、分析证据、做出判断。搜索智能体正是 AI 触达人类世界迈出的重要一步。

来自主题: AI技术研报

8209 点击 2025-10-23 16:04

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。

来自主题: AI技术研报

6612 点击 2025-10-23 15:42

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报

6793 点击 2025-10-23 15:10

Nature点赞！哈佛MIT最新作：AI科学家时代来了

AI科学家时代正在到来，哈佛MIT最新推出的ToolUniverse，通过一个统一平台，让AI用自然语言操作600+科学工具，推动科研自动化的全面升级，迎接科学发现新范式。

来自主题: AI技术研报

10016 点击 2025-10-23 12:38

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

10474 点击 2025-10-23 12:28

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

来自主题: AI技术研报

9512 点击 2025-10-23 12:20

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

7250 点击 2025-10-23 11:41

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

作为视频创作者，你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头，或是重现《泰坦尼克号》船头经典的追踪运镜？

来自主题: AI技术研报

8353 点击 2025-10-23 11:32

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

学术展示视频作为科研交流的重要媒介，制作过程仍高度依赖人工，需要反复进行幻灯片设计、逐页录制和后期剪辑，往往需要数小时才能产出几分钟的视频，效率低下且成本高昂，这凸显了推动学术展示视频自动化生成的必要性。

来自主题: AI技术研报

9175 点击 2025-10-23 11:25

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

近日，范鹤鹤（浙江大学）、杨易（浙江大学）、Mohan Kankanhalli（新加坡国立大学）和吴飞（浙江大学）四位老师提出了一种具有划时代意义的神经网络基础操作——Translution。该研究认为，神经网络对某种类型数据建模的本质是：

来自主题: AI技术研报

9431 点击 2025-10-23 10:59

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

太卷了，DeepSeek-OCR刚发布不到一天，智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒，那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下：

来自主题: AI技术研报

8892 点击 2025-10-22 23:58

ICCV 2025最佳论文出炉！何恺明、孙剑等十年经典之作夺奖

ICCV最佳论文新鲜出炉了！今年，CMU团队满载而归，斩获最佳论文奖和最佳论文提名。同时，何恺明团队论文，RBG大神提出的Fast R-CNN，十年后斩获Helmholtz Prize，实至名归。

来自主题: AI技术研报

8679 点击 2025-10-22 15:22

Embedding黑箱成为历史！这个新框架让模型“先解释，再学Embedding”

让模型先解释，再学Embedding！来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员，最新推出可解释的生成式Embedding框架——GRACE。过去几年，文本表征（Text Embedding）模型经历了从BERT到E5、GTE、LLM2Vec，Qwen-Embedding等不断演进的浪潮。这些模型将文本映射为向量空间，用于语义检索、聚类、问答匹配等任务。

来自主题: AI技术研报

8038 点击 2025-10-22 15:00

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7654 点击 2025-10-22 14:57

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

7286 点击 2025-10-22 14:52

SIGGRAPH Asia 2025 | OmniPart框架，让3D内容创作像拼搭积木一样简单

在3D内容创作领域，如何像玩乐高一样，自由生成、编辑和组合对象的各个部件，一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手，推出了一个名为 OmniPart 的全新框架，巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

来自主题: AI技术研报

6805 点击 2025-10-22 14:48

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

在人工智能的广阔世界里，我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间，你觉得这些AI“牛马”还是缺了点什么？

来自主题: AI技术研报

9579 点击 2025-10-22 12:13

一张照片，一个3D「你」：计算所等提出HumanLift，实现高保真数字人重建

创建具有高度真实感的三维数字人，在三维影视制作、游戏开发以及虚拟/增强现实（VR/AR）等多个领域均有着广泛且重要的应用。

来自主题: AI技术研报

9779 点击 2025-10-22 12:07

比人类网瘾更可怕，AI患上“脑腐”后彻底没救

“脑腐”（Brain Rot）指的是接触了过多社交媒体的低质量、碎片化信息后，人类的精神和智力状态恶化，如同腐烂一般。它曾入选 2024 年牛津大学出版社年度热词。

来自主题: AI技术研报

8056 点击 2025-10-22 12:02

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

DeepSeek最新开源的模型，已经被硅谷夸疯了！

来自主题: AI技术研报

8359 点击 2025-10-22 11:57

清华、快手提出AttnRL：让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

8068 点击 2025-10-22 11:46

AI技术研报-这里有最前沿的人工智能技术解读

超越Runway！Adobe发布新神器：P视频比P图还简单

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

Meta「透视」AI思维链：CRV推理诊断，准确率达 92%！

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

告别黑箱解释！首个潜变量自动解释框架 | CIKM'25

搜索智能体的关键一课：先立目标，再照镜子

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

无VAE扩散模型！ 清华&可灵团队「撞车」谢赛宁团队「RAE」

Nature点赞！哈佛MIT最新作：AI科学家时代来了

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

SIGGRAPH Asia 2025｜电影级运镜一键克隆！港中文&快手可灵团队发布CamCloneMaster

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

ICCV 2025最佳论文出炉！何恺明、孙剑等十年经典之作夺奖

Embedding黑箱成为历史！这个新框架让模型“先解释，再学Embedding”

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

SIGGRAPH Asia 2025 | OmniPart框架，让3D内容创作像拼搭积木一样简单

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

一张照片，一个3D「你」：计算所等提出HumanLift，实现高保真数字人重建

比人类网瘾更可怕，AI患上“脑腐”后彻底没救

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

清华、快手提出AttnRL：让大模型用「注意力」探索

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」