AI资讯新闻榜单内容搜索-泛化能力

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

9931 点击 2025-11-17 14:32

NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

随着生成式 AI（如 Sora）的发展，合成视频几乎可以以假乱真，带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习，难以在高质量生成视频中保持较好的泛化能力。其根本原因在于，这些方法大都未能充分利用自然视频所遵循的物理规律，挖掘自然视频的更本质的特征。

来自主题: AI技术研报

9807 点击 2025-11-06 09:39

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

大模型后训练的痛点：均值优化忽略低概率高信息路径，导致推理能力停滞。RiskPO双管齐下，MVaR目标函数推导梯度估计，多问题捆绑转化反馈，实验中Geo3K准确率54.5%，LiveCodeBench Pass@1提升1%，泛化能力强悍。

来自主题: AI技术研报

7930 点击 2025-10-25 14:32

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近，千寻智能的研究人员注意到，基于模仿学习的视觉运动策略中也存在类似现象，并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报

8794 点击 2025-09-29 14:31

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而，现有训练范式存在一些核心瓶颈，比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报

8943 点击 2025-09-27 11:13

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

7939 点击 2025-09-26 13:30

ICCV 2025 Highlight | 3D真值生成新范式，开放驾驶场景的语义Occupancy自动化标注!

本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景，该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架，无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线，并展现优秀的通用性和泛化能力，论文已被 ICCV 2025 录用为 Highlight。

来自主题: AI技术研报

8739 点击 2025-08-29 11:42

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

人形机器人的运动控制，正成为强化学习（RL）算法应用的下一个热点研究领域。当前，主流方案大多遵循 “仿真到现实”（Sim-to-Real）的范式。研究者们通过域随机化（Domain Randomization）技术，在成千上万个具有不同物理参数的仿真环境中训练通用控制模型，期望它能凭借强大的泛化能力，直接适应动力学特性未知的真实世界。

来自主题: AI技术研报

8630 点击 2025-08-27 11:05

打工半年后，Atlas觉醒！「大行为模型」零代码上新技能，AI工业革命来了？

Atlas进厂打工技能再进化！波士顿动力联手丰田研究院，首次让人形机器人Atlas能够通过语言指令驱动，一次性处理从折叠配件到整理仓架的复杂作业。这种LBM（Large Behavior Models，大行为模型）方法让机器人具备跨任务泛化能力，迈出了工业化实践的一大步。

来自主题: AI资讯

9415 点击 2025-08-22 11:20

CoRL 2025｜隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

在机器人操作任务中，预测性策略近年来在具身人工智能领域引起了广泛关注，因为它能够利用预测状态来提升机器人的操作性能。然而，让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战，尤其是生成高质量的像素级表示。

来自主题: AI技术研报

8521 点击 2025-08-18 11:53