AI技术研报-这里有最前沿的人工智能技术解读

RAG发展图谱：从基础检索到记忆增强，再到自适应RAG的五大范式 | RAG最新综述

RAG工作发展时间线（2020年至今）。展示了RAG相关研究的三个主要领域：基础（包括RAG学习和RAG框架）、进阶和评估。关键的语言模型（GPT-3、GPT-4等）发展节点标注在时间线上。

来自主题: AI技术研报

11490 点击 2025-03-21 12:18

黄仁勋GTC演讲中被忽视的重磅技术：即将改写AI工厂游戏规则的CPO

在GTC2025大会上，NVIDIA依旧延续着“算力的故事”。如果AI的发展依旧遵循着scaling law（规模定律），那么这个故事还能继续讲下去。

来自主题: AI技术研报

5344 点击 2025-03-21 11:57

硅基流动：关于 DeepSeek-R1 API 的评测，至少有 7 个误区

随着硅基流动的 SiliconCloud 等平台上线 DeepSeek-R1，市面上出现了不少测试各大厂商 API 服务的评测文章及反馈，不过，从我们收到的不少内容及反馈来看，其中的对比测试方式多有漏洞，内容质量参差不齐。

来自主题: AI技术研报

12472 点击 2025-03-21 11:48

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准WritingBench，揭秘深度思考能否增进文学表达

全面评估大模型生成式写作能力的基准来了！

来自主题: AI技术研报

10968 点击 2025-03-21 11:39

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一，尤其在捕捉高保真室外场景细节时，如何确保结构一致性和几何精度显得尤为困难。

来自主题: AI技术研报

10176 点击 2025-03-21 10:40

AI视频是否符合物理规律，量化基准来了，实现人类感知对齐 | 阿里高德/中科院出品

测一测现有AI生成视频是否符合物理运动规律！

来自主题: AI技术研报

5480 点击 2025-03-21 10:35

一张图，快速生成可拆分3D角色！腾讯清华新SOTA | CVPR 2025

任意一张立绘，就可以生成可拆分3D角色！

来自主题: AI技术研报

8052 点击 2025-03-21 10:13

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

当我们看到一张猫咪照片时，大脑自然就能识别「这是一只猫」。但对计算机来说，它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片，实际上是一个包含 300 万个数字的数据集（1000×1000×3 个颜色通道）。每个数字代表一个像素点的颜色深浅，从 0 到 255。

来自主题: AI技术研报

10110 点击 2025-03-20 16:51

华为诺亚综述：生成式模型如何用于决策？

近年来，生成模型在内容生成（AIGC）领域蓬勃发展，同时也逐渐引起了在智能决策中的应用关注。

来自主题: AI技术研报

9621 点击 2025-03-20 16:38

AI预判了你的预判！人大高瓴团队发布TTR，教会AI一眼看穿你的下一步

对面有个人向你缓缓抬起手，你会怎么回应呢？握手，还是挥手致意？

来自主题: AI技术研报

7186 点击 2025-03-20 16:26

一个算法让LLM创新能力暴增，原来是AI学会了进化

如果你让当今的 LLM 给你生成一个创意时钟设计，使用提示词「a creative time display」，它可能会给出这样的结果：

来自主题: AI技术研报

9906 点击 2025-03-20 16:15

生活机器人最后考验！杨笛一团队发布EgoNormia：现实中能否符合社会规范？

EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力，从结果上看，当前最先进的模型在规范推理方面仍远不如人类，主要问题在于规范合理性和优先级判断上的不足。

来自主题: AI技术研报

8805 点击 2025-03-20 15:26

保姆级教程：让AI操作数据库—Cusor配置Sqlite MCP Server|遇到了一个大坑，全网没人说！！

在用Cursor等AI工具编程的同学们，有没有发现，你原本想让AI帮你解决问题，但AI老是让你自己去操作。

来自主题: AI技术研报

11515 点击 2025-03-20 10:12

DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》，那么不妨再深挖一些能大幅提升回答质量的细节。这次，我们将重点关注两个细节：

来自主题: AI技术研报

12122 点击 2025-03-20 09:57

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

本文介绍了Search-R1技术，这是一项通过强化学习训练大语言模型进行推理并利用搜索引擎的创新方法。实验表明，Search-R1在Qwen2.5-7B模型上实现了26%的性能提升，使模型能够实时获取准确信息并进行多轮推理。本文详细分析了Search-R1的工作原理、训练方法和实验结果，为AI产品开发者提供了重要参考。

来自主题: AI技术研报

12527 点击 2025-03-20 09:48

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

近年来，扩散模型在图像与视频合成领域展现出强大能力，为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面，该技术能够基于一系列预设姿态驱动参考图像，使其动态化，从而生成高度可控的人体动画视频。

来自主题: AI技术研报

10406 点击 2025-03-20 09:34

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

近年来，大型语言模型（LLM）通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性，市场对高效快速的 LLM 需求不断增长。

来自主题: AI技术研报

7251 点击 2025-03-20 09:26

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像（Text-to-Image, T2I）生成任务近年来取得了飞速进展，其中以扩散模型（如 Stable Diffusion、DiT 等）和自回归（AR）模型为代表的方法取得了显著成果。然而，这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量，导致计算成本高昂、落地困难，难以高效地应用于实际生产环境。

来自主题: AI技术研报

8491 点击 2025-03-20 09:18

手把手教你用 MCP 连接 Claude3.7 与 Blender，一句话生成 3D 场景

最近在推特上刷到一条视频，特别火爆，彻底把我看呆了。

来自主题: AI技术研报

10118 点击 2025-03-19 15:30

AI一周写出ICLR研讨会论文！成果简洁有效获审稿人大赞

AI写的论文已经在ICLR的研讨会上通过了同行评审，还是一口气中就中了两篇。

来自主题: AI技术研报

6429 点击 2025-03-19 15:14

世界模型在机器人任务规划中的全新范式：NUS邵林团队提出通用机器人规划模型FLIP

人类具有通用的、解决长时序复杂任务的规划能力，这在我们处理生活中的复杂操作任务时很有用。

来自主题: AI技术研报

8939 点击 2025-03-19 14:57

NAACL2025｜中国移动九天团队提出大模型调色板：一种可控文本生成的解决方案

大模型在文本生成方面取得了卓越的成就，通过合适的prompt设计，往往可以使得生成结果符合特定的需求。但是为属性繁多的任务设计出合适的prompt是很困难的。一种解决方案是通过线性组合方式或者其变种将每个属性对应的模型在生成logits上进行融合。鉴于属性之间可能存在的冲突现象，这种方案无法保证模型的主属性不受其他模型的干扰。

来自主题: AI技术研报

10538 点击 2025-03-19 14:52

真·MoE？路由LLM最全面探索：一种笔记本也能玩的大模型Scaling Up研究

事关路由LLM（Routing LLM），一项截至目前最全面的研究，来了——

来自主题: AI技术研报

9845 点击 2025-03-19 14:45

仅凭RGB图像实现户外场景高精度定位与重建，来自港科广团队 | ICRA 25

从自动驾驶、机器人导航，到AR/VR等前沿应用，SLAM都是离不开的核心技术之一。

来自主题: AI技术研报

7909 点击 2025-03-19 14:34

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

评估多模态AI模型的那些复杂测试，可能有一半都是“重复劳动”！

来自主题: AI技术研报

10603 点击 2025-03-19 10:37

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

近年来，深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而，在现实场景中，传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时，逐渐暴露出其方法论的局限性。

来自主题: AI技术研报

7244 点击 2025-03-19 10:30

Django创造者Simon Willison分享：我如何使用LLM帮我写代码

近段时间，著名 AI 科学家 Andrej Karpathy 提出的氛围编程（vibe coding）是 AI 领域的一大热门话题。简单来说，氛围编程就是鼓励开发者忘掉代码，进入开发的氛围之中。更简单地讲，就是向 LLM 提出需求，然后「全部接受」即可。

来自主题: AI技术研报

10300 点击 2025-03-19 10:03

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6507 点击 2025-03-19 09:43

首次，6人7天真人秀！南洋理工等发布第一视角AI生活管家数据EgoLife

通过收集六名志愿者一周的多模态生活数据，研究人员构建了300小时的第一视角数据集EgoLife，旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统，包含EgoGPT和EgoRAG两个模块，分别用于视频理解与长时记忆问答，助力AI深入理解日常生活并提供个性化帮助。

来自主题: AI技术研报

8994 点击 2025-03-19 09:31

Dify v1.1.0 发布：用元数据给知识库"贴标签"，RAG 检索效率翻倍

我是 Dify 产品团队的 Yawen。今天，我们很高兴地宣布发布 Dify v1.1.0，并推出了以“元数据”作为知识过滤器的新功能。通过利用自定义的元数据属性，元数据过滤能够提升知识库中相关数据的检索效率和准确度。过去，用户只能在庞大的数据集中进行搜索，无法根据特定需求进行筛选或控制访问，难以快速锁定最相关的信息。、

来自主题: AI技术研报

11591 点击 2025-03-18 21:13

AI技术研报-这里有最前沿的人工智能技术解读

RAG发展图谱：从基础检索到记忆增强，再到自适应RAG的五大范式 | RAG最新综述

黄仁勋GTC演讲中被忽视的重磅技术：即将改写AI工厂游戏规则的CPO

硅基流动：关于 DeepSeek-R1 API 的评测，至少有 7 个误区

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准WritingBench，揭秘深度思考能否增进文学表达

单张照片实现三维重建，单视角室外复杂场景首次攻克｜ 西湖大学&港科大&Everlyn AI

AI视频是否符合物理规律，量化基准来了，实现人类感知对齐 | 阿里高德/中科院出品

一张图，快速生成可拆分3D角色！腾讯清华新SOTA | CVPR 2025

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

华为诺亚综述：生成式模型如何用于决策？

AI预判了你的预判！人大高瓴团队发布TTR，教会AI一眼看穿你的下一步

一个算法让LLM创新能力暴增，原来是AI学会了进化

生活机器人最后考验！杨笛一团队发布EgoNormia：现实中能否符合社会规范？

保姆级教程：让AI操作数据库—Cusor配置Sqlite MCP Server|遇到了一个大坑，全网没人说！！

DeepSearch/DeepResearch中最优文本段选择和URL重排

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

手把手教你用 MCP 连接 Claude3.7 与 Blender，一句话生成 3D 场景

AI一周写出ICLR研讨会论文！成果简洁有效获审稿人大赞

世界模型在机器人任务规划中的全新范式：NUS邵林团队提出通用机器人规划模型FLIP

NAACL2025｜中国移动九天团队提出大模型调色板：一种可控文本生成的解决方案

真·MoE？路由LLM最全面探索：一种笔记本也能玩的大模型Scaling Up研究

仅凭RGB图像实现户外场景高精度定位与重建，来自港科广团队 | ICRA 25

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

Django创造者Simon Willison分享：我如何使用LLM帮我写代码

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

首次，6人7天真人秀！南洋理工等发布第一视角AI生活管家数据EgoLife

Dify v1.1.0 发布：用元数据给知识库"贴标签"，RAG 检索效率翻倍

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI