AI资讯新闻榜单内容搜索-泛化

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

在现实世界中，如何让智能体理解并挖掘 3D 场景中可交互的部位（Affordance）对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning，就是希望模型能够根据视觉和语言线索，自动推理出物体可供哪些操作、以及可交互区域的空间位置，从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

来自主题: AI技术研报

6309 点击 2025-04-11 09:55

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

本文介绍了 FoundationStereo，一种用于立体深度估计的基础模型，旨在实现强大的零样本泛化能力。

来自主题: AI技术研报

8982 点击 2025-04-06 16:13

TRACE：因果事件建模助力视频理解大模型的时间定位能力

下班回家后你正深陷于一部两小时的综艺节目中，渴望找到那些让人捧腹的爆笑片段，却如同大海捞针。或者，在紧张刺激的足球赛中，你渴望捕捉到那决定性的绝杀瞬间，但传统 AI 视频处理技术效率低下，且模型缺乏泛化能力。为解决这些问题，香港中文大学（深圳）唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术，通过因果事件建模为视频理解大模型提供精准的时间定位能力。

来自主题: AI技术研报

9815 点击 2025-03-17 09:19

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

南洋理工大学的研究团队提出了MedRAG模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力，显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型，准确率提升11.32%，并具备良好的泛化能力，可广泛应用于不同LLM基模型。

来自主题: AI技术研报

6947 点击 2025-03-14 16:19

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

Magma是一个新型多模态基础模型，能够理解和执行多模态任务，适用于数字和物理环境：通过标记集合（SoM）和标记轨迹（ToM）技术，将视觉语言数据转化为可操作任务，显著提升了空间智能和任务泛化能力。

来自主题: AI技术研报

7925 点击 2025-03-11 10:49

有关智能体/Agent，和上下文协议/MCP的一些概念，以及为什么它重要

由于语言泛化，今天出现了很有趣的现象：「Agent 是什么」，这个问题没有了标准的定义。一个常见的观点是：Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。

来自主题: AI技术研报

10817 点击 2025-03-10 11:33

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

本文提出了一种轨迹级别 SE (3) 等变的扩散策略（ET-SEED），通过将等变表示学习和扩散策略结合，使机器人能够在极少的示范数据下高效学习复杂操作技能，并能够泛化到不同物体姿态和环境中。

来自主题: AI技术研报

5850 点击 2025-03-06 15:24

跟硅谷的核心AI公司聊完后，得到了这 60 条关键洞察

对 LLM 来说，Pre-training 的时代已经基本结束了。视频模型的 Scaling Law，瓶颈还很早。具身智能：完全具备人类泛化能力的机器人，在我们这代可能无法实现

来自主题: AI资讯

8732 点击 2025-01-24 12:57

Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过的任务，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

来自主题: AI技术研报

10890 点击 2025-01-16 10:23

真机数据白采了？银河通用具身VLA大模型已充分泛化，预训练基于仿真合成大数据！

今天，银河通用机器人发布了端到端具身抓取基础大模型「GraspVLA」，全球第一个预训练完全基于仿真合成大数据的具身大模型，展现出了比OpenVLA、π0、RT-2、RDT等模型更全面强大的泛化性和真实场景实用潜力。

来自主题: AI技术研报

6803 点击 2025-01-10 12:23