AI资讯新闻榜单内容搜索-视觉

3D版Canva获200万美元，开启AI视觉搜索

MattoBoard，一家旨在简化室内设计师和建筑师创作过程的云端软件，正在进入人工智能领域。周二，这家初创公司宣布完成 200 万美元的种子融资，将支持推出一项名为 Design Stream 的新功能，这是一款基于人工智能的视觉搜索和发现工具。

来自主题: AI资讯

8567 点击 2025-02-12 17:24

三大竞赛引爆CVPR'25协作智能Workshop全方位探讨多智能体具身系统新机遇，总计1万美元奖金等你来拿

IEEE/CVF国际计算机视觉与模式识别会议（CVPR）是人工智能领域最具学术影响力的顶级会议之一，将于今年 6月11日至6月15日在美国田纳西州举行。

来自主题: AI资讯

6556 点击 2025-02-07 19:45

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

3635 点击 2025-02-06 15:26

AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频

还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗？升级版技术方案来了，字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成，生成的人物视频效果生动，具有非常高的自然度。

来自主题: AI技术研报

6918 点击 2025-02-06 13:11

70年AI研究得出了《苦涩的教训》：为什么说AI创业也在重复其中的错误？

Ilya Sutskever 在 NeurIPS 会上直言：大模型预训练这条路可能已经走到头了。上周的 CES 2025，黄仁勋有提到，在英伟达看来，Scaling Laws 仍在继续，所有新 RTX 显卡都在遵循三个新的扩展维度：预训练、后训练和测试时间（推理），提供了更佳的实时视觉效果。

来自主题: AI技术研报

5267 点击 2025-02-05 13:38

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

8341 点击 2025-02-02 19:07

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27 页综述，354 篇参考文献！史上最详尽的视觉定位综述，内容覆盖过去十年的视觉定位发展总结，尤其对最近 5 年的视觉定位论文系统性回顾，内容既涵盖传统基于检测器的视觉定位，基于 VLP 的视觉定位，基于 MLLM 的视觉定位，也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报

6890 点击 2025-02-01 18:11