AI技术研报-这里有最前沿的人工智能技术解读

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B

来自东南大学、微软亚洲研究院等机构的研究团队提出了一种全新的解决方案——Re-TRAC（REcursive TRAjectory Compression），这个框架让 AI 智能体能够「记住」每次探索的经验，在多个探索轨迹之间传递经验，实现渐进式的智能搜索。

来自主题: AI技术研报

10478 点击 2026-02-25 10:35

别再一键贴代码！Anthropic点名3种「用AI不退化」真方法

在AI编程时代，效率飙升却隐藏危机：Anthropic最新研究揭示，使用AI助手虽能快速生成代码，但开发者在概念理解、代码阅读和调试能力上显著落后。独立解决问题才是技能之钥，AI若不当用，将成「懒惰陷阱」。

来自主题: AI技术研报

8349 点击 2026-02-25 10:32

jina-embeddings-v5-text：0.6B 参数下最好的多语言向量模型

jina-embeddings-v5-text 岁在丙午，开年即战。Jina AI 的五代目向量模型春节期间正式发布。1B 参数内世界第一，全面刷新向量模型的性能天花板！

来自主题: AI技术研报

10165 点击 2026-02-24 15:43

多模态DeepResearch，成了！

DeepResearch 的价值在于把「查资料」变成「做研究」：不是搜到一条就回答，而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编

来自主题: AI技术研报

8749 点击 2026-02-24 15:41

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

字节Seed都开始用化学思想搞大模型了——深度推理是共价键、自我反思是氢键、自我探索是范德华力？！

来自主题: AI技术研报

10741 点击 2026-02-24 15:37

大模型真听懂了吗？最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展，语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而，当模型逐渐进入真实口语交互场景，一个更基础的问题浮现出来：我们是否真正定义清楚了「语音理解」的能力边界？

来自主题: AI技术研报

11116 点击 2026-02-24 15:35

ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！

针对这一挑战，来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号，稳定奖励获取，提升 RL 过程中模型奖励投机的难度，从而有效避免 RL 训练崩溃，实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报

8966 点击 2026-02-24 15:16

AI模型烧掉的Token，对应多少GDP？AI的经济贡献现在有数了

机器之心发布本文作者为摩尔线程天使投资人、中国初代AI投资人王捷。他于 2025 年 8 月和 12 月分别发表了《浮现中的AI经济》、《关于AI经济的四十个问题》两篇文章，对即将到来的 AI

来自主题: AI技术研报

10517 点击 2026-02-24 09:16

北大团队让AI智能体「入侵」论坛，指挥真实机器人执行任务

公元前47年，凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报：「Veni, Vidi, Vici」——我来了，我看见了，我征服了。两千多年后，北京大学杨仝教授团队也用三步定义了一种全新的AI范式：降临论坛、接管指令、统治物理世界。

来自主题: AI技术研报

9212 点击 2026-02-24 09:12

Anthropic最新报告，揭示了300个独角兽的创业机会！YC CEO力挺

Anthropic最新报告揭示，AI智能体近半数使用量集中在软件工程，其余16个垂直行业各占不到9%。AI已具备连续工作5小时的能力，但用户目前最多只让它跑42分钟，信任远未跟上技术。Y Combinator CEO陈嘉兴断言：这片几乎空白的行业版图里，藏着下一代300个独角兽。

来自主题: AI技术研报

10641 点击 2026-02-23 18:28

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

a16z 昨天发了一张图，把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是： A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between

来自主题: AI技术研报

13731 点击 2026-02-22 23:06

训练奖励太稀疏？港中文联合美团给Agent加上「过程分」

在很多大模型和 Agent 的训练里，最常见的一种做法就是只看结果：最后答案对了就给奖励，错了就当 0 分。在单轮问答里，这样「只看结果」还勉强能用；可一旦换成 Agent 这种要多轮对话、搜索、刷

来自主题: AI技术研报

8963 点击 2026-02-22 11:29

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

11058 点击 2026-02-22 11:17

霸榜SOTA，蚂蚁开源UI-Venus-1.5，GUI智能体办事时代加速到来

GUI 智能体最近卷到什么程度了？Claude、OpenAI Agent 及各类开源模型你方唱罢我登场，但若真想让 AI 成为「能在手机和网页上稳定干活的助手」，仍绕不开三大现实难题：

来自主题: AI技术研报

10172 点击 2026-02-20 13:10

ICLR 2026｜新版「图灵测试」：当VLA走进生物实验室

现有 VLA 模型的研究和基准测试多局限于家庭场景（如整理餐桌、折叠衣物），缺乏对专业科学场景（尤其是生物实验室）的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂（透明容器、数字界面）等特点，是评估 VLA 模型精准操作、视觉推理和指令遵循能力的理想场景之一。

来自主题: AI技术研报

8057 点击 2026-02-20 13:00

从AlphaGo到DeepSeek R1，推理的未来将走向何方？

机器之心编译如果把人生看作一个开放式的大型多人在线游戏（MMO），那么游戏服务器在刚刚完成一次重大更新的时刻，规则改变了。自 2022 年 ChatGPT 惊艳亮相以来，世界已经发生了深刻变化。在

来自主题: AI技术研报

10423 点击 2026-02-20 12:38

一个模型统一所有离线任务！微软用671B大模型重构广告推荐「推理大脑」

近日，微软Bing Ads与DKI团队发表论文《AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks》，宣布基于DeepSeek-R1 671B打造了统一的离线推理中枢AdNanny，用单一模型承载所有离线任务。这标志着从维护一系列任务特定模型，转向部署一个统一的、推理中心化的基础模型，从

来自主题: AI技术研报

10018 点击 2026-02-18 13:29

ICLR 2026 | SEINT：高效的跨空间刚体不变度量

本文提出一种具有 SE(p) 不变传输性质的度量 SEINT：通过构造无需训练的 SE(p) 不变表示，将高维结构信息压缩为可用于 Optimal Transport (OT) 对齐的一维表征，从而在保持不变性与严格度量性质的同时显著提升效率。

来自主题: AI技术研报

6818 点击 2026-02-18 13:28

ICLR 2026 | PIL：基于线性代理的不可学习样本生成方法

不可学习样本（Unlearnable Examples）是一类用于数据保护的技术，其核心思想是在原始数据中注入人类难以察觉的微小扰动，使得未经授权的第三方在使用这些数据训练模型时，模型的泛化性能显著下降，甚至接近随机猜测，从而达到阻止数据被滥用的目的。

来自主题: AI技术研报

9576 点击 2026-02-18 13:27

单个LLM已不够？华盛顿大学开源多模型协同框架MoCo

为了支持多模型协同研究并加速这一未来愿景的实现，华盛顿大学 (University of Washington) 冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出 MoCo—— 一个针对多模型协同研究的 Python 框架。MoCo 支持 26 种在不同层级实现多模型交互的算法，研究者可以灵活自定义数据集、模型以及硬件配置，比较不同算法，优化自身算法，以此构建组合式人工智能系统。MoCo 为设计、

来自主题: AI技术研报

9847 点击 2026-02-18 13:24

李飞飞团队新作：简单调整生成顺序，大幅提升像素级图像生成质量

但扩散模型生图，顺序真的对吗？李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识，他们发现生成的质量瓶颈不在架构，而在顺序。

来自主题: AI技术研报

9357 点击 2026-02-15 21:27

清华新框架让大模型学会「精读略读」！实现12倍端到端加速，基准评分翻倍

来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现：现有任务相关的压缩方法不仅陷入效率瓶颈——要么一次性加载全文（效率低），要么自回归逐步压缩（速度慢），更难以兼顾“保留关键信息”与“保持自然语言可解释性”。

来自主题: AI技术研报

10313 点击 2026-02-15 21:25

训练加速40倍、打破“不可能三角”：MiniMax Agent RL 架构解密

随着 MiniMax M2.5 的发布并在社区引发热烈反响，很高兴能借此机会，分享在模型训练背后关于 Agent RL 系统的一些思考。在大规模、复杂的真实世界场景中跑 RL 时，始终面临一个核心难

来自主题: AI技术研报

9012 点击 2026-02-15 06:50

2026年OpenClaw Skills排行榜：Top 20必装清单（附安装顺序）

装 Clawdbot（现在叫 OpenClaw）不难。难的是装完之后打开一看——1700 多个 Skill，不知道先装哪个。我帮你筛了一遍。下面 20 个 Skill 按「先打地基 → 再接入口 → 最后扩场景」的顺序排好了，跟着装就行。每个都写清楚：干嘛用的、适合谁、一句话安装。

来自主题: AI技术研报

18282 点击 2026-02-14 18:26

GLM-5最具破坏力的玩法来了！结合CC新出的Agent Teams，解锁Vibe coding终极形态！

当大多数人还在测试它的单点逻辑推理能力时，敏锐的开发者已经发现了一个更具破坏力的玩法：将GLM-5的高密度思维模型注入到Anthropic最新推出的Claude Code Agent Teams架构中。

来自主题: AI技术研报

11549 点击 2026-02-14 10:48

视听分离SOTA提速6倍！清华发布首个6M高性能模型｜ICLR'26

清华大学团队推出的Dolphin模型突破了「高性能必高能耗」的瓶颈：仅用6M参数（较主流模型减半），通过离散化视觉编码和物理启发的热扩散注意力机制，实现单次推理即可精准分离语音，速度提升6倍以上，在多项基准测试中刷新纪录，为智能助听器、手机等端侧设备部署高清语音分离开辟新路。

来自主题: AI技术研报

9642 点击 2026-02-14 10:28

开源：参考OpenClaw，我们给 Claude Code 加上了轻量化的永久透明记忆

但考虑到在代码领域，如何做好记忆与检索，相比其他场景又有所不同，因此，基于 memsearch CLI ，我们同时也为Claude Code 做了个永久记忆的 plugin——memsearch ccplugin（可适用所有AI coding软件）。

来自主题: AI技术研报

9457 点击 2026-02-14 10:11

一副手套，干翻硅谷炫技派！中国队杀入战场，狂卷100万小时数据

灵初智能选择了一条更为激进的技术路线：「人类中心（Human-Centric）」。他们自主研发了全球首个灵巧手真实世界数采引擎Psi-SynEngine。

来自主题: AI技术研报

10509 点击 2026-02-14 10:07

ICLR 2026 | 异常需要定义！中传团队提出开放世界视频异常检测新范式

针对这一问题，中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》，直面 VAD 领域的核心问题 —— 什么是异常？

来自主题: AI技术研报

9153 点击 2026-02-14 10:03

GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！

当看到GLM-5正式发布后的能力，才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

来自主题: AI技术研报

7196 点击 2026-02-13 12:08