AI资讯新闻榜单内容搜索-CVPR

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报

9301 点击 2025-05-29 14:20

CVPR 25 |全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

来自香港中文大学（深圳）等单位的学者们提出了一种名为 DriveGEN 的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型，即可实现训练图像数据的可控扩充，从而以较低的计算资源成本提升三维检测模型的鲁棒性。

来自主题: AI技术研报

8542 点击 2025-05-23 14:09

CVPR 2025 | SketchVideo让手绘动起来，视频生成进入线稿时代

近年来，生成式人工智能的快速发展，在文本和图像生成领域都取得了很大的成功。

来自主题: AI技术研报

7349 点击 2025-05-18 16:01

首个，专攻点云上下文学习自适应采样！支持点级、提示级｜CVPR 2025

MICAS是一种专为3D点云上下文学习设计的多粒度采样方法，通过任务自适应点采样和查询特定提示采样，提升模型在点云重建、去噪、配准和分割等任务中的稳健性和适应性，显著优于现有技术。

来自主题: AI技术研报

9010 点击 2025-05-14 14:28

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报

11331 点击 2025-05-12 14:59