AI技术研报-这里有最前沿的人工智能技术解读

刚刚，AI破解50年未解数学难题！南大校友用OpenAI模型完成首个非平凡数学证明

AI辅助人类，完成了首个非平凡研究数学证明，破解了50年未解的数学难题！在南大校友的研究中，这个难题中q=3的情况，由o3-mini-high给出了精确解。

来自主题: AI技术研报

7099 点击 2025-04-14 17:10

阿里智能化研发起飞！RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

RTP-LLM 是阿里巴巴大模型预测团队开发的高性能 LLM 推理加速引擎。它在阿里巴巴集团内广泛应用，支撑着淘宝、天猫、高德、饿了么等核心业务部门的大模型推理需求。在 RTP-LLM 上，我们实现了一个通用的投机采样框架，支持多种投机采样方法，能够帮助业务有效降低推理延迟以及提升吞吐。

来自主题: AI技术研报

6069 点击 2025-04-14 15:13

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报

7070 点击 2025-04-14 14:39

更长思维并不等于更强推理性能，强化学习可以很简洁

今天早些时候，著名研究者和技术作家 Sebastian Raschka 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的原因。

来自主题: AI技术研报

8083 点击 2025-04-14 14:17

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

研究发现，推理模型（如DeepSeek-R1、o1）遇到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究，深入剖析推理模型在MiP问题上的「过度思考」现象，揭示其背后的行为模式，带你一窥当前AI推理能力的真实边界。

来自主题: AI技术研报

5924 点击 2025-04-14 14:05

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

近年来，随着大型语言模型（LLMs）的快速发展，多模态理解领域取得了前所未有的进步。像 OpenAI、InternVL 和 Qwen-VL 系列这样的最先进的视觉-语言模型（VLMs），在处理复杂的视觉-文本任务时展现了卓越的能力。

来自主题: AI技术研报

3765 点击 2025-04-14 13:57

详解 MCP 传输机制

MCP 传输机制（Transport）是 MCP 客户端与 MCP 服务器通信的一个桥梁，定义了客户端与服务器通信的细节，帮助客户端和服务器交换消息。

来自主题: AI技术研报

8606 点击 2025-04-14 10:55

详解 MCP 连接生命周期

MCP 协议定义了一个严格的生命周期，用于客户端-服务器连接，确保了通信双方能进行适当的状态管理和能力协商。

来自主题: AI技术研报

7389 点击 2025-04-14 10:24

详解 MCP 核心架构

MCP 协议遵循互联网常见的 C / S 架构，即客户端（Client）- 服务器（Server）架构。

来自主题: AI技术研报

7362 点击 2025-04-14 10:04

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下，数学推理能力已成为衡量语言模型智能上限的关键指标。

来自主题: AI技术研报

3693 点击 2025-04-14 09:01

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

终于，华为盘古大模型系列上新了，而且是昇腾原生的通用千亿级语言大模型。我们知道，如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。

来自主题: AI技术研报

6280 点击 2025-04-13 16:12

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升，但来自图宾根大学和剑桥大学的研究者发现，强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动，我们对推理基准的现状进行了严格的调查，特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4，2024；AI - MO。」

来自主题: AI技术研报

3986 点击 2025-04-13 15:59

扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

本文作者刘圳是香港中文大学（深圳）数据科学学院的助理教授，肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生，刘威杨是德国马克思普朗克-智能系统研究所的研究员，Yoshua Bengio 是蒙特利尔大学和加拿大 Mila 研究所的教授，张鼎怀是微软研究院的研究员。此论文已收录于 ICLR 2025。

来自主题: AI技术研报

6740 点击 2025-04-13 15:49

谢赛宁等新作上线，多模态理解生成大一统！思路竟与GPT-4o相似？

来自Meta和NYU的团队，刚刚提出了一种MetaQuery新方法，让多模态模型瞬间解锁多模态生成能力！令人惊讶的是，这种方法竟然如此简单，就实现了曾被认为需要MLLM微调才能具备的能力。

来自主题: AI技术研报

6061 点击 2025-04-13 14:11

GitHub Copilot 加入基于 AI 的代码密码扫描功能

GitHub 在其 Copilot 功能中引入了一项基于 AI 的密码扫描功能，该功能已经整合到 GitHub Secret Protection 中。

来自主题: AI技术研报

6851 点击 2025-04-13 13:36

杜蕾斯级别的创意海报，现在你用即梦3.0就能批量生了

如果你没有杜蕾斯背后强大的5A广告公司、鬼才般的创意团队、句句封神的的金牌文案、审美爆辣的视觉艺术家。借助即梦刚上线的3.0生图模型以及 Deepseek生创意和文案，你也可以轻松复刻一个「杜蕾斯级别」的刷屏海报。

来自主题: AI技术研报

7011 点击 2025-04-13 10:12

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

来自主题: AI技术研报

6702 点击 2025-04-12 21:59

4090玩转大场景几何重建，RGB渲染和几何精度达SOTA｜上海AI Lab&西工大新研究

仅用4090就能实现大规模城市场景重建！

来自主题: AI技术研报

5402 点击 2025-04-12 14:56

手机实现GPT级智能，比MoE更极致的稀疏技术：省内存效果不减｜对话面壁&清华肖朝军

在大模型争霸的时代，算力与效率的平衡成为决定胜负的关键。

来自主题: AI技术研报

8136 点击 2025-04-12 14:38

AI Agent 摩尔定律：每7个月能力翻倍，带来软件智能大爆炸

AI Agent 领域也存在 scaling law，甚至还在加速。

来自主题: AI技术研报

8413 点击 2025-04-12 14:11

失败 AI 产品列表

简单分享一份下线 AI 产品的信息列表（AI Graveyard），里面囊括的产品小类非常多。

来自主题: AI技术研报

7127 点击 2025-04-12 13:47

传统预训练正走向终结，推理优化与后训练提升有限，大模型今后如何突破发展瓶颈？

高质量数据枯竭，传统预训练走向终点，大模型如何突破瓶颈？

来自主题: AI技术研报

5761 点击 2025-04-12 13:42

让机器人更像人类有了新方法！港科大新算法对齐人机动作形态，无需重复训练，轻量模块通用且适配

“让机器人看懂世界、听懂指令、动手干活”正从科幻走向现实。

来自主题: AI技术研报

6806 点击 2025-04-12 13:22

移动端AI安全再突破！水印保护新范式：403个AI App成功保护率超8成

随着智能手机和物联网设备普及，移动端AI成为趋势，带来离线运行、低延迟、隐私保护等优势。然而，模型本地存储同时带来了严重风险。

来自主题: AI技术研报

6881 点击 2025-04-12 13:00

200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到，这是一个拥有 200B 总参数的 MoE 模型，每次工作时会激活其中 20B 参数。其表现非常惊艳，在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测，这就是字节豆包目前正在使用的深度思考模型。

来自主题: AI技术研报

7141 点击 2025-04-11 16:01