AI技术研报-这里有最前沿的人工智能技术解读

谷歌最新PlanGEN框架，开发自适应Multi-Agent，错过太可惜，不用邀请码

Agent这两天随着邀请码进入公众视野，展示了不凡的推理能力。然而，当面对需要精确规划和深度推理的复杂问题时，即使是最先进的LLMs也常常力不从心。Google研究团队提出的PlanGEN框架，正是为解决这一挑战而生。

来自主题: AI技术研报

2927 点击 2025-03-06 16:55

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

本文提出了一种轨迹级别 SE (3) 等变的扩散策略（ET-SEED），通过将等变表示学习和扩散策略结合，使机器人能够在极少的示范数据下高效学习复杂操作技能，并能够泛化到不同物体姿态和环境中。

来自主题: AI技术研报

3816 点击 2025-03-06 15:24

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B

来自主题: AI技术研报

4974 点击 2025-03-06 11:13

用AgenticLU长上下文理解，LLM澄清链CoC实现自学，答案召回率高达97.8% | 最新

LLM一个突出的挑战是如何有效处理和理解长文本。就像下图所示，准确率会随着上下文长度显著下降，那么究竟应该怎样提升LLM对长文本理解的准确率呢？

来自主题: AI技术研报

7202 点击 2025-03-06 09:54

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

4100 点击 2025-03-06 09:46

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后，我们也能让 Llama 学会自我改进。

来自主题: AI技术研报

7149 点击 2025-03-06 09:37

AI产品在海外，如何实现有效增长

增长是手段，但不是能解决一切问题的手段。因为只要你的网站还存在很多问题，那么增长就无法发挥最大的作用。增长是手段，而不是目的，最终是为具体的目的服务的，比如商业化。接下来现场嘉宾会讲一下商业化。所以按照第一性原理，你不是为了增长而增长，而是为了赚钱而增长，没有商业化的增长是一种负担。

来自主题: AI技术研报

6766 点击 2025-03-05 22:43

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

6799 点击 2025-03-05 20:42

空间具身通用操作模型！百万真实数据训练，预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作

与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略，一直是机器人领域的长期追求。

来自主题: AI技术研报

3876 点击 2025-03-05 13:46

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

3845 点击 2025-03-05 13:39

DeepSearcher深度解读：Agentic RAG的出现，传统RAG的黄昏

技术上，从传统的关键词检索，到RAG，大家已经不满足于只是生成对应的简单回答。而是期待大语言模型能够更好地应用于企业级场景，产生更大的价值。不久前，OpenAI推出了最新的深度内容生成神器“DeepResearch”，用户只需一个"特斯拉的合理市值是多少"的提问，

来自主题: AI技术研报

8215 点击 2025-03-05 12:06

Dify外接Fastgpt知识库，这套组合可以说封神了！【喂饭级教程】

说真的，dify除了知识库以外，其他大部分功能体验都比fastgpt要好。而fastgpt的知识库效果是公认的好（以下是某群群友的评价~）不过我想：如果能把dify和fastgpt结合，且不妙哉？

来自主题: AI技术研报

9875 点击 2025-03-05 11:25

DeepSeek-R1 x Agentic RAG：构建带"深度思考"开关的知识研究助理｜深度长文

RAG是一种基于“检索结果”做推理的应用，这大大限制了类似DeepSeek-R1模型的发挥空间。但又的确存在将RAG的准确性与DeepSeek深度思考能力结合的场景，而不仅仅是回答事实性问题。比如：

来自主题: AI技术研报

8270 点击 2025-03-05 11:07

从 R1 到 Sonnet 3.7，Reasoning Model 首轮竞赛中有哪些关键信号？

DeepSeek R1 催化了 reasoning model 的竞争：在过去的一个月里，头部 AI labs 已经发布了三个 SOTA reasoning models：OpenAI 的 o3-mini 和deep research， xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。

来自主题: AI技术研报

7288 点击 2025-03-05 09:39

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括：（1）回溯性：每轮修改文本可能涉及历史参考图像信息（如保留特定属性），要求算法回溯利用多轮历史信息；（2）多样化：FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍，且交互轮次数量接近其27倍，提供了丰富的多模态检索场景。

来自主题: AI技术研报

7101 点击 2025-03-05 08:46

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

满血版DeepSeek R1部署A100，基于INT8量化，相比BF16实现50%吞吐提升！美团搜推机器学习团队最新开源，实现对DeepSeek R1模型基本无损的INT8精度量化。

来自主题: AI技术研报

5957 点击 2025-03-04 20:36

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

6074 点击 2025-03-04 20:09

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

来自主题: AI技术研报

5850 点击 2025-03-04 20:02

NP难问题接近被AI破解！南航牛津爆改DeepSeek-R1推理，碾压人类27年研究

给DeepSeek-R1推理指导，它的数学推理能力就开始暴涨。更令人吃惊是，Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例！而人类为此耗费了27年。研究者预言：LLM离破解NP-hard问题，已经又近了一步。

来自主题: AI技术研报

8248 点击 2025-03-04 16:20

有没有复杂任务自动化的Multi-Agent框架？用Nexus，几行YAML搞定数据清洗

随着R1等先进推理模型展现出接近人类的推理能力，多代理系统（Multi-Agent Systems，MAS）的发展也出现了前所未有的机遇。然而，随着我们尝试构建越来越复杂的多代理系统，一个核心问题日益凸显：如何在保持系统灵活性的同时，降低开发和维护的复杂度？

来自主题: AI技术研报

7065 点击 2025-03-04 16:12

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

6019 点击 2025-03-04 14:28