AI资讯新闻榜单内容搜索-视觉

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

8287 点击 2025-03-24 15:47

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

单视角三维场景重建一直是计算机视觉领域中的核心挑战之一，尤其在捕捉高保真室外场景细节时，如何确保结构一致性和几何精度显得尤为困难。

来自主题: AI技术研报

9733 点击 2025-03-21 10:40

AI编程完成的第二个小产品 art4kid 上线，deepseek 成功接入，新的挑战与收获

大家好，最近感觉有点AI编程搞产品上瘾了😂。这次主要想和大家分享第二个小产品 art4kid.com 过程中遇到的挑战和收获。这个产品也是通过AI编程完成的，我所做的主要就是把握方向，发现问题，让AI思考问题发生原因然后解决问题，还有提供一些视觉。

来自主题: AI资讯

9587 点击 2025-03-21 10:19

生活机器人最后考验！杨笛一团队发布EgoNormia：现实中能否符合社会规范？

EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力，从结果上看，当前最先进的模型在规范推理方面仍远不如人类，主要问题在于规范合理性和优先级判断上的不足。

来自主题: AI技术研报

8310 点击 2025-03-20 15:26

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

近年来，深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而，在现实场景中，传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时，逐渐暴露出其方法论的局限性。

来自主题: AI技术研报

6792 点击 2025-03-19 10:30

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6151 点击 2025-03-19 09:43

CVPR'25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

跨模态因果对齐，让机器更懂视觉证据！

来自主题: AI技术研报

10340 点击 2025-03-17 15:02

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

10175 点击 2025-03-17 14:36

人类秒懂，AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

来自主题: AI技术研报

7631 点击 2025-03-15 15:05

YOLOe问世，实时观察一切，统一开放物体检测和分割

它能像人眼一样，在文本、视觉输入和无提示范式等不同机制下进行检测和分割。

来自主题: AI技术研报

10824 点击 2025-03-13 14:46

AI资讯新闻榜单内容搜索-视觉

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

单张照片实现三维重建，单视角室外复杂场景首次攻克｜ 西湖大学&港科大&Everlyn AI

AI编程完成的第二个小产品 art4kid 上线，deepseek 成功接入，新的挑战与收获

生活机器人最后考验！杨笛一团队发布EgoNormia：现实中能否符合社会规范？

深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

CVPR'25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

人类秒懂，AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

YOLOe问世，实时观察一切，统一开放物体检测和分割

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI