AI资讯新闻榜单内容搜索-视觉智能

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉智能
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报
6699 点击    2025-10-28 09:26
库克虎口夺食:马斯克盯上的北大校友AI公司被苹果抢走

库克虎口夺食:马斯克盯上的北大校友AI公司被苹果抢走

库克虎口夺食:马斯克盯上的北大校友AI公司被苹果抢走

库克和马斯克都盯上的CV公司!打开Prompt AI官网,上面介绍了这家公司的定位:一家专注于消费应用视觉智能的AI公司。这家总部位于旧金山的初创公司,其核心团队非常UC伯克利范儿:

来自主题: AI资讯
9535 点击    2025-10-11 15:56
苹果 AI「百亿补贴」来了:免费开放端侧模型,不跟 OpenAI 卷

苹果 AI「百亿补贴」来了:免费开放端侧模型,不跟 OpenAI 卷

苹果 AI「百亿补贴」来了:免费开放端侧模型,不跟 OpenAI 卷

今年苹果在 AI 上宣布的诸多所谓新功能,例如实时翻译、快捷指令等,并无太多革命性;至于视觉智能 (visual intelligence),不仅功能落后 Google Lens 六七年,交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。

来自主题: AI资讯
8430 点击    2025-06-10 19:17
对话肖特特:从伯克利到PromptAI创业,发明创造下一代视觉智能

对话肖特特:从伯克利到PromptAI创业,发明创造下一代视觉智能

对话肖特特:从伯克利到PromptAI创业,发明创造下一代视觉智能

通用语言模型率先起跑,但通用视觉模型似乎迟到了一步。究其原因,语言中蕴含大量序列信息,能做更深入的推理;而视觉模型的输入内容更加多元、复杂,输出的任务要求多种多样,需要对物体在时间、空间上的连续性有完善的感知,传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯
9322 点击    2024-12-16 10:48
让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

为提高生产力、优化流程和创造更加安全的空间,埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能体。

来自主题: AI资讯
4326 点击    2024-11-09 10:14
专访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代diffusion带来真正的视觉智能

专访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代diffusion带来真正的视觉智能

专访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代diffusion带来真正的视觉智能

在 AI 领域,近年来各个子领域都逐渐向 transformer 架构靠拢,只有文生图和文生视频一直以 diffusion + u-net 结构作为主流方向。diffusion 有更公开可用的开源模型,消耗的计算资源也更少。

来自主题: AI资讯
7123 点击    2024-01-06 12:27