AI资讯新闻榜单内容搜索-视觉

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。

来自主题: AI资讯

7441 点击 2024-01-26 13:17

MIT计算机科学与人工智能实验室（CSAIL）的一项研究发现：不用担心视觉AI会很快淘汰人类打工人，因为对于企业来说，它们实在是太贵了。

来自主题: AI资讯

5333 点击 2024-01-25 13:10

目标跟踪是计算机视觉的一项基础视觉任务，由于计算机视觉的快速发展，单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性，我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷，以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报

9569 点击 2024-01-24 14:10

人类有两只眼睛来估计视觉环境的深度信息，但机器人和 VR 头社等设备却往往没有这样的「配置」，往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计（MDE）。

来自主题: AI资讯

5811 点击 2024-01-23 15:13

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报

7648 点击 2024-01-22 14:43

多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

来自主题: AI资讯

5299 点击 2024-01-20 15:01

视觉模型，同样遵循「参数越多性能越强」的规律？刚刚，一项来自苹果公司的研究验证了这个猜想。

来自主题: AI技术研报

9173 点击 2024-01-18 18:19

来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题，他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法，有效地提升了多模态大模型的视觉功能。

来自主题: AI资讯

7181 点击 2024-01-18 13:27

来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。

来自主题: AI资讯

8039 点击 2024-01-18 13:07

还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！

来自主题: AI技术研报

3316 点击 2024-01-17 14:03