AI技术研报-这里有最前沿的人工智能技术解读

长文本向量模型在4K Tokens 之外形同盲区？

2025 年 2 月发布的 NoLiMA 是一种大语言模型（LLM）长文本理解能力评估方法。不同于传统“大海捞针”（Needle-in-a-Haystack, NIAH）测试依赖关键词匹配的做法，它最大的特点是通过精心设计问题和关键信息，迫使模型进行深层语义理解和推理，才能从长文本中找到答案。

来自主题: AI技术研报

6428 点击 2025-03-12 15:08

DeepSearch 与 DeepResearch 的设计和实现

这才 2 月份，深度搜索（Deep Search）就已经隐隐成为 2025 年的新搜索标准了。像谷歌和 OpenAI 这样的巨头，纷纷亮出自己的“Deep Research”产品，努力抢占这波技术浪潮的先机。（我们也很自豪，在同一天也发布了开源的node-deepresearch）。

来自主题: AI技术研报

12235 点击 2025-03-12 14:55

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报

9224 点击 2025-03-12 14:53

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器，帮助LLMs高效完成复杂任务，无需额外训练。在16个任务中表现优异，比其他方法平均准确率高出9.3%，尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报

8295 点击 2025-03-12 14:47

18项任务200万视频编辑对，云天励飞联合多高校打造出大规模编辑数据集

为了解决视频编辑模型缺乏训练数据的问题，本文作者（来自香港中文大学、香港理工大学、清华大学等高校和云天励飞）提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对，囊括了 18 种视频编辑任务。

来自主题: AI技术研报

9209 点击 2025-03-12 14:41

填补空白！首个提升大模型工作流编排能力的大规模数据集开源

Manus 爆火出圈，引发 Agent 热潮！从自行理解任务、拆解步骤到选择工具并执行，这需要 Agent 具备强大的复杂工作流编排和任务处理能力，而工作流也是智能体的核心技术之一。

来自主题: AI技术研报

11053 点击 2025-03-12 14:18

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

大语言模型长序列文本生成效率新突破——生成10万Token的文本，传统自回归模型需要近5个小时，现在仅需90分钟！

来自主题: AI技术研报

10596 点击 2025-03-12 13:52

砍掉99%采样成本！腾讯AI Lab提出大模型无监督训练新技术

只要微调模型生成的前8-32个词，就能让大模型推理能力达到和传统监督训练一样的水平？

来自主题: AI技术研报

8897 点击 2025-03-12 13:41

李飞飞团队具身智能新作：500美元，一切家务机器人帮你干

现如今机器人又是跑步又是后空翻，但到底什么时候能做上家务给人类养养老？

来自主题: AI技术研报

10510 点击 2025-03-12 13:23

用AI把PDF一键变成能玩的可视化网页，这不比PPT酷多了。

前几天，看到好基友歸藏在X上发了一个帖子：

来自主题: AI技术研报

7433 点击 2025-03-12 10:22

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

如今的前沿推理模型，学会出来的作弊手段可谓五花八门，比如放弃认真写代码，开始费劲心思钻系统漏洞！为此，OpenAI研究者开启了「CoT监控」大法，让它的小伎俩被其他模型戳穿。然而可怕的是，这个方法虽好，却让模型变得更狡猾了……

来自主题: AI技术研报

9519 点击 2025-03-12 09:23

轻松拿捏高等数学，LLM平均得分90+！GPT-4o、Mistral几乎没错

在32道高等数学测试中，LLM表现出色，平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错！向量计算、几何分析、积分计算、优化问题等，高等AI模型轻松拿捏。研究发现，再提示（Re-Prompting）对提升准确率至关重要。

来自主题: AI技术研报

10606 点击 2025-03-11 18:38

李飞飞全新「保姆」人形机器人，倒垃圾刷马桶家务全包！遥操只需Switch手柄

斯坦福李飞飞团队在「保姆型」机器人上新突破！提出BRS综合框架，以后机器人执行日常家务更自主、更可靠。

来自主题: AI技术研报

6764 点击 2025-03-11 18:31

陶哲轩亲测点赞，o3-mini秒证图论难题！专家级证明完整呈现

o3-mini成功挑战图论中专家级证明，还得到了陶哲轩盛赞。经过实测后，他总结称LLM并非是数学研究万能解法，其价值取决于问题得性质和调教AI的方式。

来自主题: AI技术研报

8225 点击 2025-03-11 17:55

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！

来自主题: AI技术研报

9445 点击 2025-03-11 17:34

David Baker团队新成果，RFdiffusion再进化，实现原子级精度的抗体从头设计

从随机残基分布开始，逐步生成新的蛋白质结构

来自主题: AI技术研报

10605 点击 2025-03-11 17:24

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

8800 点击 2025-03-11 17:22

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？

来自主题: AI技术研报

9942 点击 2025-03-11 17:03

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

8810 点击 2025-03-11 16:32

人工智能代理不是玩具，而是工人|必须像评估劳动力一样评估AI代理

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。

来自主题: AI技术研报

7793 点击 2025-03-11 16:24

可自定义的推理框架SoT-Agent，通过小路由模型自适应推理，更灵活，更经济 | 最新

本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感，通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式，巧妙地解决了大语言模型推理过程中的效率瓶颈。

来自主题: AI技术研报

8230 点击 2025-03-11 16:21

ICLR 2025 | 原生3D+流匹配，现有SOTA被GaussianAnything超越

在 ICLR 2025 中，来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything，针对现有问题引入了一种交互式的点云结构化潜空间，实现了可扩展的、高质量的 3D 生成，并支持几何-纹理解耦生成与可控编辑能力。

来自主题: AI技术研报

9866 点击 2025-03-11 16:13