AI资讯新闻榜单内容搜索-视觉智能

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

6699 点击 2025-10-28 09:26

库克虎口夺食：马斯克盯上的北大校友AI公司被苹果抢走

库克和马斯克都盯上的CV公司！打开Prompt AI官网，上面介绍了这家公司的定位：一家专注于消费应用视觉智能的AI公司。这家总部位于旧金山的初创公司，其核心团队非常UC伯克利范儿：

来自主题: AI资讯

9535 点击 2025-10-11 15:56

苹果 AI「百亿补贴」来了：免费开放端侧模型，不跟 OpenAI 卷

今年苹果在 AI 上宣布的诸多所谓新功能，例如实时翻译、快捷指令等，并无太多革命性；至于视觉智能 (visual intelligence)，不仅功能落后 Google Lens 六七年，交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。

来自主题: AI资讯

8430 点击 2025-06-10 19:17

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯

9322 点击 2024-12-16 10:48