AI技术研报-这里有最前沿的人工智能技术解读

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

8457 点击 2025-10-13 11:02

清华大学x生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

在这一背景下，清华大学与生数科技（Shengshu AI）团队围绕桥类生成模型与音频超分任务展开系统研究，先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果：

来自主题: AI技术研报

8846 点击 2025-10-13 10:30

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化

来自主题: AI技术研报

9307 点击 2025-10-13 10:28

破解MoE模型“规模越大，效率越低”困境！中科院自动化所提出新框架

大模型参数量飙升至千亿、万亿级，却陷入“规模越大，效率越低” 困境？中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”，开启动态“组队学习”。

来自主题: AI技术研报

8474 点击 2025-10-13 10:26

告别AI“乱画图表”！港中文团队发布首个结构化图像生成编辑系统

AI竟然画不好一张 “准确” 的图表？AI生图标杆如FLUX.1、GPT-Image，已经能生成媲美摄影大片的自然图像，却在柱状图、函数图这类结构化图像上频频出错，要么逻辑混乱、数据错误，要么就是标签错位。

来自主题: AI技术研报

10072 点击 2025-10-12 15:03

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

7643 点击 2025-10-12 14:59

刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人

风雨飘摇中的Meta，于昨天发布了一篇重量级论文，提出了一种被称作「早期经验」（Early Experience）的全新范式，让AI智能体「无师自通」，为突破强化学习瓶颈提供了一种新思路。

来自主题: AI技术研报

9475 点击 2025-10-12 11:01

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

当大语言模型生成海量数据时，数据存储的难题也随之而来。对此，华盛顿大学（UW）SyFI实验室的研究者们提出了一个创新的解决方案：LLMc，即利用大型语言模型自身进行无损文本压缩的引擎。

来自主题: AI技术研报

6822 点击 2025-10-12 11:00

清华万引教授：万倍加速催化剂设计，AI突破DFT瓶颈！

传统DFT计算太慢？SurFF来了！这个基础模型通过晶面生成、快速弛豫和Wulff构型，精准评估晶面可合成性与暴露度。SurFF相较于DFT实现了10⁵倍的加速，多源实验与文献验证一致率达73.1%。

来自主题: AI技术研报

7604 点击 2025-10-12 10:43

信息量爆炸！深度解读 300页 AI 年度百科报告《State of AI 2025》

昨天，State of AI Report 2025 正式发布了。背后主笔是硅谷投资人 Nathan Benaich 和他创办的 Air Street Capital，从 2018 年开始，这份报告就被称为“AI 行业的年度百科”。

来自主题: AI技术研报

7862 点击 2025-10-11 15:57

全球首个真实世界具身多模态数据集，它石智航交卷，比特斯拉还早6个月

全球首个真实世界具身多模态数据集，它来了！刚刚，它石智航发布全球首个大规模真实世界具身VLTA（Vision-Language-Tactile-Action）多模态数据集World In Your Hands（WIYH）。

来自主题: AI技术研报

10201 点击 2025-10-11 12:06

250份文档就能给大模型植入后门：不分参数规模

大模型安全的bug居然这么好踩？？250份恶意文档就能给LLM搞小动作，不管模型大小，600M还是13B，中招率几乎没差。这是Claude母公司Anthropic最新的研究成果。

来自主题: AI技术研报

9756 点击 2025-10-11 12:04

斯坦福新论文：微调已死，自主上下文当立

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员，在新论文中证明：依靠上下文工程，无需调整任何权重，模型也能不断变聪明。他们提出的方法名为智能体上下文工程ACE。

来自主题: AI技术研报

7046 点击 2025-10-11 11:45

任意Agent皆可强化学习！微软推出Agent Lightning框架，无需修改任何代码

AI Agent已逐渐从科幻走进现实！不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务，甚至还可以进行端到端的软件开发，已经在金融、游戏、软件开发等诸多领域落地应用。

来自主题: AI技术研报

9084 点击 2025-10-11 11:44

协同加速，多机器人协作不再「慢半拍」！软硬一体化框架ReCA破解具身智能落地效率瓶颈

为了打破这一僵局，来自佐治亚理工学院、明尼苏达大学和哈佛大学的研究团队将目光从单纯的「成功」转向了「成功且高效」。他们推出了名为 ReCA 的集成加速框架，针对多机协作具身系统，通过软硬件协同设计跨层次优化，旨在保证不影响任务成功率的前提下，提升实时性能和系统效率，为具身智能落地奠定基础。

来自主题: AI技术研报

8836 点击 2025-10-11 11:32

算力成本大降！马尔可夫思考机来了，LLM推理成本直接降为线性

Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径，提出了一个不同的问题：如果环境从一开始就不会造成计算量的二次级增长呢？他们提出了一种新的范式，其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机（Markovian Thinker)。

来自主题: AI技术研报

9159 点击 2025-10-11 11:31

斯坦福最新：上下文只能写死在prompt里？用ACE把经验写进可演化上下文『附系统提示』

调模型不如“管上下文”。这篇文章基于 ACE（Agentic Context Engineering），把系统提示、运行记忆和证据做成可演化的 playbook，用“生成—反思—策展”三角色加差分更新，规避简化偏置与上下文塌缩。在 AppWorld 与金融基准上，ACE 相较强基线平均提升约 +10.6% 与 +8.6%，适配时延降至约 1/6（-86.9%），且在无标注监督场景依然有效。

来自主题: AI技术研报

10226 点击 2025-10-11 11:31

Code2Video：代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。共一作者 Yanzhe Chen 陈彦哲（博士生）与 Kevin Qinghong Lin 林庆泓（博士生）均来自 ShowLab@NUS，分别聚焦于多模态理解以及智能体（Agent）研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

来自主题: AI技术研报

9245 点击 2025-10-11 11:30

Jina Reranker v3: 全新“列式”重排器，0.6B参数刷新文档检索SOTA

我们正式推出第三代重排器 Jina Reranker v3。它在多项多语言检索基准上刷新了当前最佳表现（SOTA）。这是一款仅有 6 亿参数的多语言重排模型。我们为其设计了名为 “last but not late” （中文我们译作后发先至）的全新交互机制，使其能接受 Listwise 即列式输入，在一个上下文窗口内一次性完成对查询和所有文档的深度交互。

来自主题: AI技术研报

10456 点击 2025-10-10 13:11

700万参数击败DeepSeek R1等，三星一人独作爆火，用递归颠覆大模型推理

来自加拿大蒙特利尔三星先进技术研究所（SAIT）的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型（TRM）。这个 TRM 有多离谱呢？一个仅包含 700 万个参数（比 HRM 还要小 4 倍）的网络，在某些最困难的推理基准测试中，

来自主题: AI技术研报

9030 点击 2025-10-10 13:08

管你模型多大，250份有毒文档统统放倒，Anthropic：迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所（UK AI Security Institute）和艾伦・图灵研究所（Alan Turing Institute）联合进行的一项研究彻底打破了这一传统观念：只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞，且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报

9325 点击 2025-10-10 12:14

又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限

Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看，他们将 LLM 视为其「思维」的改进操作符，实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼（Parallel-Distill-Refine, PDR），

来自主题: AI技术研报

9336 点击 2025-10-10 10:33

AI「学不会」竟成相变探针！UCSD华人联手谷歌等，曝光量子纠缠秘密

来自加州大学圣地亚哥分校（UCSD）的华人学者Wanda Hou，与加州大学伯克利分校以及Google Quantum AI合作，在谷歌的Sycamore与Willow超导量子处理器上完成了一次别开生面的实验。

来自主题: AI技术研报

8612 点击 2025-10-10 10:28

NeurIPS 2025 Spotlight | 只需一条演示，DexFlyWheel框架让机器人学会「自我造数据」

近期，北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。该框架仅需单条演示即可启动任务，自动生成多样化的灵巧操作数据，旨在缓解灵巧手领域长期存在的数据稀缺问题。目前已被 NeurIPS 2025 接受为 Spotlight（入选率约 3.2%）

来自主题: AI技术研报

10034 点击 2025-10-10 10:26

软件行业的范式转变：AI 如何彻底改写游戏规则

你有没有想过，我们对软件公司的所有认知可能都要被推翻重建？当一家公司用 19 个人就能在一年内做到 1 亿美元 ARR（年度经常性收入）时，当传统需要 500 人团队才能达成的里程碑现在只需要几十人就

来自主题: AI技术研报

10151 点击 2025-10-09 16:26

69 页最新报告丨AI Agent 圣经：智能体的终极指南

CBINSIGHTS 最近做了一份《AI Agent Bible》的报告，系统梳理了 AI Agent 的发展前景与未来趋势，提出了面向 2026 年的六大关键预测，并绘制出完整的生态版图，涵盖最值得关注的创业公司、基础设施提供商及快速崛起的营收增长型企业。同时，报告深入解析了市场格局与技术栈的演进，包括 AI Agent 的市场图谱、技术堆栈与收入竞争态势，并通过企业级应用的视角，

来自主题: AI技术研报

11485 点击 2025-10-09 14:02

别卷 Prompt 了，上下文工程正在淘汰你

Hi，返工早上好。我是洛小山，和你聊聊 AI 行业思考。 AI Agent 应用的竞争逻辑，正在发生根本性变化。当许多团队还在死磕提示词优化（PE 工程）时，一些优秀团队开始重心转向了上下文工程

来自主题: AI技术研报

7623 点击 2025-10-09 11:59

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

7002 点击 2025-10-09 11:16

Meta的代码生成世界模型CWM，先预测结果再写代码，IDE很快会多一个“预言”按钮

您修过Bug吗？在Vibe coding的时代之前，当程序员遇到自己写的 Bug 时，通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时，情况变得复杂得多，我们不清楚 AI 的“思考

来自主题: AI技术研报

8416 点击 2025-10-09 11:06

10个Agent一键组队：并行智能体协作，端到端交付从24h缩减到4h！

写代码的规则，正在被悄悄改写！不再是「人+AI一起盯屏幕」，而是一次性放出十几个任务，让代理们各自跑。真正的门槛，也不再是你能写多少行代码，而是你能不能写清楚需求、明确地拆分任务、快速浏览结果。

来自主题: AI技术研报

10163 点击 2025-10-08 22:46