AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。

来自主题: AI资讯
7441 点击    2024-01-26 13:17
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报
9569 点击    2024-01-24 14:10
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。

来自主题: AI资讯
5811 点击    2024-01-23 15:13
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报
7648 点击    2024-01-22 14:43
模型越大,性能越好?苹果自回归视觉模型AIM:没错

模型越大,性能越好?苹果自回归视觉模型AIM:没错

模型越大,性能越好?苹果自回归视觉模型AIM:没错

视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。

来自主题: AI技术研报
9173 点击    2024-01-18 18:19
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法,有效地提升了多模态大模型的视觉功能。

来自主题: AI资讯
7181 点击    2024-01-18 13:27
ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞

ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞

ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞

来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。

来自主题: AI资讯
8039 点击    2024-01-18 13:07