AI资讯新闻榜单内容搜索-训练

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

8214 点击 2025-06-09 11:02

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

苹果最新大模型论文，在AI圈炸开了锅。有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。

来自主题: AI技术研报

8237 点击 2025-06-09 10:38

扩展强化学习：环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进，变得更为高效且价格更为亲民。在评估现实世界软件工程任务（如 SWE-Bench）时，模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报

7188 点击 2025-06-09 10:25

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

注意力机制的「平方枷锁」，再次被撬开！一招Fenwick树分段，用掩码矩阵，让注意力焕发对数级效率。更厉害的是，它无缝对接线性注意力家族，Mamba-2、DeltaNet 全员提速，跑分全面开花。长序列处理迈入log时代！

来自主题: AI技术研报

9582 点击 2025-06-08 15:27

8个数据集全面胜出！思维链推理刷新图学习表现上限

图神经网络还能更聪明？思维链提示学习来了！

来自主题: AI技术研报

7815 点击 2025-06-08 15:17

告别「失忆」AI！首个大模型记忆操作系统开源框架来了！

该项目来自百家 AI，是北京邮电大学白婷副教授所指导的研究小组，团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。

来自主题: AI技术研报

9567 点击 2025-06-08 15:07

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

多模态检索是信息理解与获取的关键技术，但其中的跨模态干扰问题一直是一大难题。

来自主题: AI技术研报

7925 点击 2025-06-08 14:46

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

来自主题: AI技术研报

8109 点击 2025-06-08 14:35

速递｜获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化

2024 年初，Monik Pamecha 联合创立 AI 语音初创公司 Toma 时，未曾料想自己会在盛夏时节汗流浃背地穿梭于圣经地带的汽车经销商之间。

来自主题: AI资讯

7817 点击 2025-06-08 11:42

喝点VC｜a16z合伙人：开发者市场或成为AI首个真正意义上的万亿级市场；当前模型最致命的缺陷是永远不愿承认"我不知道"

问题越常见，所需上下文越少。比如"写个博客网站"这类典型教学案例，模型生成这类代码易如反掌。但面对缺乏训练数据的新颖需求时，你必须精确描述需求、提供API文档等完整上下文，难度会指数级上升。

来自主题: AI资讯

8132 点击 2025-06-08 11:36

AI资讯新闻榜单内容搜索-训练

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

扩展强化学习：环境、奖励黑客、智能体、数据扩展

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

8个数据集全面胜出！思维链推理刷新图学习表现上限

告别「失忆」AI！首个大模型记忆操作系统开源框架来了！

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

速递｜ 获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化

喝点VC｜a16z合伙人：开发者市场或成为AI首个真正意义上的万亿级市场；当前模型最致命的缺陷是永远不愿承认"我不知道"

速递｜获a16z领投1700万美元，AI语音新星Toma意外切入汽车经销商，两周定制训练自动化