AI资讯新闻榜单内容搜索-视觉

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

视觉注意力机制，又有新突破，来自香港大学和英伟达。

来自主题: AI技术研报

8690 点击 2025-06-11 14:34

苹果 AI「百亿补贴」来了：免费开放端侧模型，不跟 OpenAI 卷

今年苹果在 AI 上宣布的诸多所谓新功能，例如实时翻译、快捷指令等，并无太多革命性；至于视觉智能 (visual intelligence)，不仅功能落后 Google Lens 六七年，交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。

来自主题: AI资讯

8869 点击 2025-06-10 19:17

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

7781 点击 2025-06-10 16:18

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

7652 点击 2025-06-10 14:45

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

因为眼睛受伤暂时失去立体视觉，李飞飞更加坚定了做世界模型的决心。

来自主题: AI资讯

7663 点击 2025-06-10 13:02

Kontext上线！LiblibAI 满血版F.1生态再添新成员

刚发布就全网刷屏的 Kontext 靠“一致性”和“多模态理解”硬刚 OpenAI，在视觉生成界引发了一波震动。

来自主题: AI资讯

8405 点击 2025-06-08 11:12

生图效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。有没有这样一个“AI创作大师”，你只需要用一句话描述脑海中的灵感，它就能自动为你搭建流程、选择工具、反复修改，最终交付高质量的视觉作品呢？

来自主题: AI技术研报

8553 点击 2025-06-07 14:49

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

来自主题: AI技术研报

8088 点击 2025-06-04 14:04

视觉感知驱动的多模态推理，阿里通义提出VRAG，定义下一代检索增强生成

在数字化时代，视觉信息在知识传递和决策支持中的重要性日益凸显。然而，传统的检索增强型生成（RAG）方法在处理视觉丰富信息时面临着诸多挑战。一方面，传统的基于文本的方法无法处理视觉相关数据；另一方面，现有的视觉 RAG 方法受限于定义的固定流程，难以有效激活模型的推理能力。

来自主题: AI技术研报

8438 点击 2025-06-04 09:28

深度｜DeepMind机器人组负责人：过去人们一直将注意力集中在本体，但真正带来巨大飞跃的是机器人的心智进步

在机器人抓香蕉这个事情上，它们依赖的是手眼协调，靠视觉学习如何抓取香蕉。它们最有独创性的地方在于它不是因为我们教了它上千次如何抓香蕉，而是它从 Gemini 那里获得了关于“如何抓取物体”的知识，然后将这些知识应用到现实世界的动作中。

来自主题: AI资讯

6631 点击 2025-06-03 16:19