AI技术研报-这里有最前沿的人工智能技术解读

有没有复杂任务自动化的Multi-Agent框架？用Nexus，几行YAML搞定数据清洗

随着R1等先进推理模型展现出接近人类的推理能力，多代理系统（Multi-Agent Systems，MAS）的发展也出现了前所未有的机遇。然而，随着我们尝试构建越来越复杂的多代理系统，一个核心问题日益凸显：如何在保持系统灵活性的同时，降低开发和维护的复杂度？

来自主题: AI技术研报

9845 点击 2025-03-04 16:12

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

8111 点击 2025-03-04 14:28

DeepSeek R1与OpenAI模型文风相似度高达74.2%？新研究质疑DeepSeek训练数据

在 DeepSeek 生成的文本中，有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性？这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。

来自主题: AI技术研报

10186 点击 2025-03-04 14:23

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

面向复杂PC任务的多模态智能体框架PC-Agent，来自阿里通义实验室。

来自主题: AI技术研报

10795 点击 2025-03-04 10:48

性能无损，模型隐私保护效果提升50%!蚂蚁数科创新跨域微调框架| AAAI 2025 Oral

大模型的快速及持续发展，离不开对模型所有权及数据隐私的保护。

来自主题: AI技术研报

10412 点击 2025-03-04 10:38

天翼云CPU实例部署DeepSeek-R1模型最佳实践

本文介绍了英特尔®至强®处理器在AI推理领域的优势，如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的DeepSeek-R1 7B蒸馏模型推理，以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。

来自主题: AI技术研报

9376 点击 2025-03-04 10:23

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？

来自主题: AI技术研报

10049 点击 2025-03-04 10:08

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

10638 点击 2025-03-04 09:52

历时6个月，Hugging Face开源LLM「超大规模实战手册」！200页3万字4000次训练

Hugging Face发布了「超大规模实战手册」，在512个GPU上进行超过4000个scaling实验。联创兼CEO Clement对此感到十分自豪。

来自主题: AI技术研报

9852 点击 2025-03-03 16:35

全网最全：DeepSeek开源Week全系列解读

农历新年刚过，DeepSeek卷王依旧，这次一下子进行了接连六天的开源Week。

来自主题: AI技术研报

8748 点击 2025-03-03 15:00

搞RAG开发，听都没听说过Embedding模型排名，快看下MMTEB嵌入基准 | ICLR2025

什么，你在开发RAG竟然还没听说过Embedding模型还有排名？在AI应用开发热潮中，Embedding模型的选择已成为决定RAG系统成败的关键因素。然而，令人惊讶的是，许多开发者仍依靠直觉或跟风选择模型，而非基于系统化评估。

来自主题: AI技术研报

12568 点击 2025-03-03 10:40

LLM「啊哈时刻」竟会自我纠正，单体数学性能暴涨！UIUC华人一作

LLM在推理任务中表现惊艳，却在自我纠正上的短板却一直令人头疼。UIUC联手马里兰大学全华人团队提出一种革命性的自我奖励推理框架，将生成、评估和纠正能力集成于单一LLM，让模型像人类一样「边想边改」，无需外部帮助即可提升准确性。

来自主题: AI技术研报

8922 点击 2025-03-03 10:28

实测腾讯元宝电脑版：搭载满血版DeepSeek，装上就是AI PC

听说了嘛？朋友，元宝电脑版新鲜出炉了！

来自主题: AI技术研报

11840 点击 2025-03-03 10:14

360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA！

现有的可控Diffusion Transformer方法，虽然在推进文本到图像和视频生成方面取得了显著进展，但也带来了大量的参数和计算开销。

来自主题: AI技术研报

8128 点击 2025-03-03 10:06

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

大语言模型（LLMs）在当今的自然语言处理领域扮演着越来越重要的角色，但其安全性问题也引发了广泛关注。

来自主题: AI技术研报

7943 点击 2025-03-03 09:53

怎么在DeepSeek里做SEO：一篇文章讲透生成引擎优化GEO

通过Deepseek、ChatGPT、Gemini等大模型说出来的话，不少没有辨别能力的小伙伴就会默认是公道与正确的。其实是未必。1.Deepseek、ChatGPT、Gemini等联网搜索的结果与规则还在完善；

来自主题: AI技术研报

10753 点击 2025-03-03 09:36

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

AI如何理解物理世界？视频联合嵌入预测架构V-JEPA带来新突破，无需硬编码核心知识，在自监督预训练中展现出对直观物理的理解，超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报

11499 点击 2025-03-02 15:47

ICLR 2025 | 机器人安灯泡、切东西都能拿捏，可操控轨迹跟踪的DexTrack来了

现实世界的机器人距离科幻小说里的机器人世界还有多远？通用灵巧操控何时才能实现？朝着这一伟大的目标，研究通用灵巧操控轨迹跟踪的 DexTrack 便应用而生。

来自主题: AI技术研报

9722 点击 2025-03-02 15:29

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法》。

来自主题: AI技术研报

10228 点击 2025-03-02 15:14

a16z：从Prompt到Product，AI驱动的网页应用搭建工具正在兴起

从本质上讲，LLM会根据用户从UI的输入生成代码示例。然后，生成的代码会通过中间件逻辑进行处理，根据逻辑跟踪文件、代码更改和第三方API调用。

来自主题: AI技术研报

9984 点击 2025-03-02 14:16

微软原WizardLM团队：代码大模型WarriorCoder，性能新SOTA

近年来，大型语言模型（LLMs）在代码相关的任务上展现了惊人的表现，各种代码大模型层出不穷。这些成功的案例表明，在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。

来自主题: AI技术研报

10539 点击 2025-03-02 14:13

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

原来，大型推理模型（Large Reasoning Model，LRM）像人一样，在「用脑过度」也会崩溃，进而行动能力下降。

来自主题: AI技术研报

8533 点击 2025-03-02 14:04

MIT三人团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

Transformer 很成功，更一般而言，我们甚至可以将（仅编码器）Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布（iid）采用假设构建的，因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报

7259 点击 2025-03-02 13:22

Claude 3.7 sonnet系统提示词的哲学

这份提示词有很多哲学性思考，很多表达让我看到背后的设计者把claude当成一个人去设计。　我猜，应该是Amanda Askell（Anthropic负责alignment和character design，是学哲学的一位女生，也是我的榜样) 主要设计的。　

来自主题: AI技术研报

9447 点击 2025-03-02 10:22

探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

在大语言模型 (LLM) 的研究中，与以 Chain-of-Thought 为代表的逻辑思维能力相比，LLM 中同等重要的 Leap-of-Thought 能力，也称为创造力，目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是，面对「创造力」，我们很难构建一个合适且自动化的评估流程。

来自主题: AI技术研报

8062 点击 2025-03-01 22:13