AI技术研报-这里有最前沿的人工智能技术解读

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

6943 点击 2025-03-11 17:22

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？

来自主题: AI技术研报

8021 点击 2025-03-11 17:03

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

6634 点击 2025-03-11 16:32

人工智能代理不是玩具，而是工人|必须像评估劳动力一样评估AI代理

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。

来自主题: AI技术研报

5428 点击 2025-03-11 16:24

可自定义的推理框架SoT-Agent，通过小路由模型自适应推理，更灵活，更经济 | 最新

本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感，通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式，巧妙地解决了大语言模型推理过程中的效率瓶颈。

来自主题: AI技术研报

6118 点击 2025-03-11 16:21

ICLR 2025 | 原生3D+流匹配，现有SOTA被GaussianAnything超越

在 ICLR 2025 中，来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything，针对现有问题引入了一种交互式的点云结构化潜空间，实现了可扩展的、高质量的 3D 生成，并支持几何-纹理解耦生成与可控编辑能力。

来自主题: AI技术研报

6747 点击 2025-03-11 16:13

1000 token/s的「扩散LLM」凭什么倒逼AI走出舒适区？

ChatGPT 平地一声雷，打乱了很多人、很多行业的轨迹和节奏。这两年模型发布的数量更是数不胜数，其中文本大模型就占据了 AIGC 赛道的半壁江山。关注我的家人们永远都是抢占 AI 高地的冲锋者。

来自主题: AI技术研报

7175 点击 2025-03-11 11:36

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

Magma是一个新型多模态基础模型，能够理解和执行多模态任务，适用于数字和物理环境：通过标记集合（SoM）和标记轨迹（ToM）技术，将视觉语言数据转化为可操作任务，显著提升了空间智能和任务泛化能力。

来自主题: AI技术研报

6005 点击 2025-03-11 10:49

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了：短短两周后，再次优化DeepSeek-R1同款GRPO训练算法，上下文变长10倍，而显存只需原来的1/10！

来自主题: AI技术研报

3840 点击 2025-03-11 10:42

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。

来自主题: AI技术研报

4731 点击 2025-03-11 09:32

微软开源多模态AI基础模型Magma！无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报

5980 点击 2025-03-10 22:22

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

字节对MoE模型训练成本再砍一刀，成本可节省40%！刚刚，豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。

来自主题: AI技术研报

5875 点击 2025-03-10 21:57

稚晖君预告揭晓！智元机器人发布首个通用具身基座模型GO-1

刚填完坑就又埋下“惊喜预告”？？

来自主题: AI技术研报

4739 点击 2025-03-10 14:54

1次搭建完胜1亿次编码，MCP硅谷疯传！Anthropic协议解锁智能体「万能手」

AI智能体领域Type-C来了！Manus及其开源复现诞生，一夜捧红了MCP，工具调用/访问外部数据，一个协议就够了。

来自主题: AI技术研报

6068 点击 2025-03-10 14:47

草稿链代替思维链，推理token砍掉80%，显著降低算力成本和延迟

推理token减少80%-90%，准确率变化不大，某些任务还能增加。

来自主题: AI技术研报

7040 点击 2025-03-10 14:19

DeepSeek的最佳用法？西湖大学发布可以自主进化的手机智能体AppAgentX

近年来，大语言模型（LLM）的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力，已经在对话生成、代码编写、知识问答等任务中展现出了卓越的表现。

来自主题: AI技术研报

7084 点击 2025-03-10 14:15

Manus开源复刻框架OWL，测评和使用教程来了！

最近 AI 圈最炸的瓜，毫无疑问是——Manus。　

来自主题: AI技术研报

5235 点击 2025-03-10 11:40

有关智能体/Agent，和上下文协议/MCP的一些概念，以及为什么它重要

由于语言泛化，今天出现了很有趣的现象：「Agent 是什么」，这个问题没有了标准的定义。一个常见的观点是：Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。

来自主题: AI技术研报

9333 点击 2025-03-10 11:33

10²⁶参数，AGI还需70年！清华人大预测届时GPU总价达4000万倍苹果市值

AGI明年降临？清华人大最新研究给狂热的AI世界泼了一盆冷水：人类距离真正的AGI，还有整整70年！若要实现「自主级智能，需要惊人的10²⁶参数，所需GPU总价竟是苹果市值的4×10⁷倍！

来自主题: AI技术研报

9173 点击 2025-03-10 10:50

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

4880 点击 2025-03-10 10:22

Ilya错了？Scaling另有他用，ViT大佬力挺谷歌1000亿数据新发现

谷歌发布了1000亿文本-图像对数据集，是此前类似数据集的10倍，创下新纪录！基于新数据集，发现预训练Scaling Law，虽然对模型性能提升不明显，但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋！

来自主题: AI技术研报

5979 点击 2025-03-10 09:52

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

来自主题: AI技术研报

7088 点击 2025-03-10 09:35

长文本有了专属困惑度！北大、MIT、阿里推出LongPPL新指标

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

来自主题: AI技术研报

8144 点击 2025-03-09 14:53

AI研究员首次通过双盲同行评审，论文登上顶会ICLR！但已撤稿

历史上首个能通过双盲同行评审的AI系统Carl诞生了。它是Autoscience研究所的成果，能完成从构思到展示的整个研究过程，撰写的论文已被国际顶会ICLR接受，其能力令人惊叹。

来自主题: AI技术研报

5981 点击 2025-03-09 14:17

Claude玩宝可梦，卡关就「装死」重启，大模型：逃避可耻但有用

半个月前，Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。

来自主题: AI技术研报

7077 点击 2025-03-09 13:46

AI玩手机越玩越6！西湖大学发布新智能体：会自我进化的AppAgentX

人工智能正迎来前所未有的变革，其中，大语言模型（LLM）的崛起推动了智能系统从信息处理向自主交互迈进。

来自主题: AI技术研报

7099 点击 2025-03-09 13:39

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报

7050 点击 2025-03-09 13:32

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区。

来自主题: AI技术研报

8502 点击 2025-03-09 13:26

DeepSeek占比升至9.6%，稳居全球第二！「全球生成式AI行业趋势」发布

生成式AI正重塑众多行业格局！传统搜索、网站与自由开发者、教育科技等行业受到冲击。AI对行业变革又有哪些推动作用？答案就在报告中。

来自主题: AI技术研报

4971 点击 2025-03-09 11:49

火山引擎直接把大模型应用给开源了，附部署教程和实测体验！

从今天这个视角来看，DeepSeek 等国内外大模型能力是越来越强大了，大家都说 2025 年 AI 应用还会持续爆发。但对于企业来说，有了大模型，那场景都有啥，应用又长啥样？

来自主题: AI技术研报

6734 点击 2025-03-09 11:36