AI资讯新闻榜单内容搜索-训练

斯坦福最新：上下文只能写死在prompt里？用ACE把经验写进可演化上下文『附系统提示』

调模型不如“管上下文”。这篇文章基于 ACE（Agentic Context Engineering），把系统提示、运行记忆和证据做成可演化的 playbook，用“生成—反思—策展”三角色加差分更新，规避简化偏置与上下文塌缩。在 AppWorld 与金融基准上，ACE 相较强基线平均提升约 +10.6% 与 +8.6%，适配时延降至约 1/6（-86.9%），且在无标注监督场景依然有效。

来自主题: AI技术研报

10419 点击 2025-10-11 11:31

Code2Video：代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。共一作者 Yanzhe Chen 陈彦哲（博士生）与 Kevin Qinghong Lin 林庆泓（博士生）均来自 ShowLab@NUS，分别聚焦于多模态理解以及智能体（Agent）研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

来自主题: AI技术研报

9467 点击 2025-10-11 11:30

Jina Reranker v3: 全新“列式”重排器，0.6B参数刷新文档检索SOTA

我们正式推出第三代重排器 Jina Reranker v3。它在多项多语言检索基准上刷新了当前最佳表现（SOTA）。这是一款仅有 6 亿参数的多语言重排模型。我们为其设计了名为 “last but not late” （中文我们译作后发先至）的全新交互机制，使其能接受 Listwise 即列式输入，在一个上下文窗口内一次性完成对查询和所有文档的深度交互。

来自主题: AI技术研报

10745 点击 2025-10-10 13:11

700万参数击败DeepSeek R1等，三星一人独作爆火，用递归颠覆大模型推理

来自加拿大蒙特利尔三星先进技术研究所（SAIT）的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型（TRM）。这个 TRM 有多离谱呢？一个仅包含 700 万个参数（比 HRM 还要小 4 倍）的网络，在某些最困难的推理基准测试中，

来自主题: AI技术研报

9298 点击 2025-10-10 13:08

管你模型多大，250份有毒文档统统放倒，Anthropic：迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所（UK AI Security Institute）和艾伦・图灵研究所（Alan Turing Institute）联合进行的一项研究彻底打破了这一传统观念：只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞，且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报

9565 点击 2025-10-10 12:14

又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限

Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看，他们将 LLM 视为其「思维」的改进操作符，实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼（Parallel-Distill-Refine, PDR），

来自主题: AI技术研报

9547 点击 2025-10-10 10:33

AI「学不会」竟成相变探针！UCSD华人联手谷歌等，曝光量子纠缠秘密

来自加州大学圣地亚哥分校（UCSD）的华人学者Wanda Hou，与加州大学伯克利分校以及Google Quantum AI合作，在谷歌的Sycamore与Willow超导量子处理器上完成了一次别开生面的实验。

来自主题: AI技术研报

8820 点击 2025-10-10 10:28

别卷 Prompt 了，上下文工程正在淘汰你

Hi，返工早上好。我是洛小山，和你聊聊 AI 行业思考。 AI Agent 应用的竞争逻辑，正在发生根本性变化。当许多团队还在死磕提示词优化（PE 工程）时，一些优秀团队开始重心转向了上下文工程

来自主题: AI技术研报

7853 点击 2025-10-09 11:59

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

7241 点击 2025-10-09 11:16

Meta的代码生成世界模型CWM，先预测结果再写代码，IDE很快会多一个“预言”按钮

您修过Bug吗？在Vibe coding的时代之前，当程序员遇到自己写的 Bug 时，通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时，情况变得复杂得多，我们不清楚 AI 的“思考

来自主题: AI技术研报

8564 点击 2025-10-09 11:06