AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GPT-4V相当的能力。

来自主题: AI资讯
7191 点击    2023-12-22 12:50
随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

来自主题: AI资讯
9280 点击    2023-12-13 16:14
DeepMind的新AI研究:人类最后的自留地失守了?

DeepMind的新AI研究:人类最后的自留地失守了?

DeepMind的新AI研究:人类最后的自留地失守了?

喂给大模型语料——最初是维基百科和Reddit,后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为,一个极度聪明的大语言模型就是那个通往AGI最终答案,多模态的研究道路只是目前对前者的底气不足。

来自主题: AI资讯
3963 点击    2023-12-13 10:16
让大模型操纵无人机,北航团队提出具身智能新架构

让大模型操纵无人机,北航团队提出具身智能新架构

让大模型操纵无人机,北航团队提出具身智能新架构

进入多模态时代,大模型也会操纵无人机了!只要视觉模块捕捉到启动条件,大模型这个“大脑”就会生成动作指令,接着无人机便能迅速准确地执行。

来自主题: AI资讯
10783 点击    2023-12-12 16:17
一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

由厦门大学等机构提出的全新视觉感知基础模型APE,只需一个模型外加一套参数,就能在160个测试集上取得当前SOTA或极具竞争力的结果。而且训练和推理代码以及模型权重全部开源,无需微调,开箱即用。

来自主题: AI资讯
10466 点击    2023-12-11 20:40
AI质检要变天了

AI质检要变天了

AI质检要变天了

传统机器视觉玩家正补全算法和智能化能力,而AI质检新势力们则继续向标准化软硬件方向拓展。工业质检的市场格局正在发生变化。

来自主题: AI资讯
8788 点击    2023-12-07 11:07
美图发布自研视觉大模型4.0,主打AI设计与AI视频

美图发布自研视觉大模型4.0,主打AI设计与AI视频

美图发布自研视觉大模型4.0,主打AI设计与AI视频

12月5-6日,主题为“未来AI设计”的美图创造力大会在厦门举行。美图公司发布自研AI视觉大模型MiracleVision(奇想智能)4.0版本,主打AI设计与AI视频。

来自主题: AI资讯
7169 点击    2023-12-06 17:24
计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花

计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花

计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花

UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型,第一次证明纯CV模型也是可扩展的。更令人震惊的是,LVM竟然也能做对图形推理题,AGI火花再次出现了?计算机视觉的GPT时刻,来了!

来自主题: AI资讯
7455 点击    2023-12-04 18:15