AI资讯新闻榜单内容搜索-泛化能力

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 泛化能力
TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。

来自主题: AI技术研报
7853 点击    2026-01-20 16:36
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25

北航刘偲教授团队提出首个大规模真实星座调度基准AEOS-Bench,更创新性地将Transformer模型的泛化能力与航天工程的专业需求深度融合,训练内嵌时间约束的调度模型AEOS-Former。这一组合为未来的“AI星座规划”奠定了新的技术基准。

来自主题: AI资讯
7487 点击    2025-12-13 15:48
AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

近日,腾讯优图实验室联合华东理工大学、北京大学等研究团队在A生成图像检测(AI-Generated Image Detection)泛化问题上展开研究,提出Dual Data Alignment(双重数据对齐,DDA)方法,从数据层面系统性抑制“偏差特征”,显著提升检测器在跨模型、跨数据域场景下的泛化能力。

来自主题: AI技术研报
6579 点击    2025-11-30 15:10
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。

来自主题: AI技术研报
9825 点击    2025-11-27 09:48
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
9038 点击    2025-11-17 14:32
NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言

NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言

NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言

随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。其根本原因在于,这些方法大都未能充分利用自然视频所遵循的物理规律,挖掘自然视频的更本质的特征。

来自主题: AI技术研报
8922 点击    2025-11-06 09:39
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

来自主题: AI技术研报
7090 点击    2025-10-25 14:32
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报
7889 点击    2025-09-29 14:31
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报
8278 点击    2025-09-27 11:13
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
7149 点击    2025-09-26 13:30