AI资讯新闻榜单内容搜索-训练

大模型 “准确率悬崖” 被证实，科学家发现模型单次处理容量上限，多智能体成破局关键

近日，来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”，借此不仅揭示了单次生成范式的根本性脆弱点，也揭示了“准确率悬崖”这一现象。

来自主题: AI技术研报

6985 点击 2025-10-20 14:02

AI打通第一/第三人称视觉，跨视角视觉理解新SOTA｜ICCV 2025 Highlight

具身智能落地迈出关键一步，AI拥有第一人称与第三人称的“通感”了！

来自主题: AI技术研报

8128 点击 2025-10-20 12:33

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报

6253 点击 2025-10-20 12:19

教多模态大模型学会“反思”和“复盘”，上交&上海AI Lab重磅发布MM-HELIX&AHPO，破解多模态复杂推理难题

多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。

来自主题: AI技术研报

7147 点击 2025-10-20 12:13

是RAG已死，还是RAG Anything，All in RAG？

每隔一阵子，总有人宣告“RAG已死”：上下文越来越长、端到端多模态模型越来越强，好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景，你会发现死掉的只是“只切文本的旧RAG”。

来自主题: AI技术研报

5546 点击 2025-10-20 12:08

无奖励也能把Agent练硬，Meta发布早期经验学习，隐式建模+反思（附提示词）

Meta提出早期经验（Early Experience）让代理在无奖励下从自身经验中学习：在专家状态上采样替代动作、执行并收集未来状态，将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可规模化的监督。

来自主题: AI技术研报

7672 点击 2025-10-20 11:54

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

6065 点击 2025-10-20 10:13