AI资讯新闻榜单内容搜索-模型

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键

大型语言模型（LLMs）在上下文知识理解方面取得了令人瞩目的成功。

来自主题: AI技术研报

7041 点击 2025-05-06 14:52

研究揭示早融合架构在低计算预算下表现更优，训练效率更高。混合专家（MoE）技术让模型动态适应不同模态，显著提升性能，堪称多模态模型的秘密武器。

来自主题: AI技术研报

9027 点击 2025-05-06 14:41

具身智能最大的挑战在于泛化能力，即在陌生环境中正确完成任务。最近，Physical Intelligence推出全新的π0.5 VLA模型，通过异构任务协同训练实现了泛化，各种家务都能拿捏。

来自主题: AI技术研报

7363 点击 2025-05-06 14:29

你以为大模型已经能轻松“上网冲浪”了？

来自主题: AI技术研报

7121 点击 2025-05-06 14:09

推理模型发展正盛，著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。

来自主题: AI技术研报

7364 点击 2025-05-06 13:58

科幻中AI自我复制失控场景，正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准，分解并评估AI自主复制所需的四大核心能力。测试显示，当前AI尚不具备完全自主复制能力，但在获取资源等子任务上已展现显著进展。

来自主题: AI技术研报

6362 点击 2025-05-06 13:40

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究，系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。

来自主题: AI技术研报

6014 点击 2025-05-06 10:53

在复杂、未知的现实环境中，传统导航方法往往依赖闭集语义或事先构建的地图，难以实现真正的“按需探索”。为打破这一瓶颈，本文提出了 FindAnything ——一套融合视觉语言模型的对象为中心、开放词汇三维建图与探索系统。

来自主题: AI技术研报

4756 点击 2025-05-06 10:23

该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距，进行了深入研究。

来自主题: AI技术研报

7967 点击 2025-05-06 09:23

编程智能体，几乎成为了 2025 年最热门的话题之一。不管是学术机构还是工业界，都在寻找更高效的落地路径。

来自主题: AI技术研报

7873 点击 2025-05-06 09:13