AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。

来自主题: AI资讯
7796 点击    2024-01-03 13:50
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GPT-4V相当的能力。

来自主题: AI资讯
6109 点击    2023-12-22 12:50
随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

来自主题: AI资讯
7960 点击    2023-12-13 16:14
DeepMind的新AI研究:人类最后的自留地失守了?

DeepMind的新AI研究:人类最后的自留地失守了?

DeepMind的新AI研究:人类最后的自留地失守了?

喂给大模型语料——最初是维基百科和Reddit,后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为,一个极度聪明的大语言模型就是那个通往AGI最终答案,多模态的研究道路只是目前对前者的底气不足。

来自主题: AI资讯
2883 点击    2023-12-13 10:16
让大模型操纵无人机,北航团队提出具身智能新架构

让大模型操纵无人机,北航团队提出具身智能新架构

让大模型操纵无人机,北航团队提出具身智能新架构

进入多模态时代,大模型也会操纵无人机了!只要视觉模块捕捉到启动条件,大模型这个“大脑”就会生成动作指令,接着无人机便能迅速准确地执行。

来自主题: AI资讯
9313 点击    2023-12-12 16:17
一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

由厦门大学等机构提出的全新视觉感知基础模型APE,只需一个模型外加一套参数,就能在160个测试集上取得当前SOTA或极具竞争力的结果。而且训练和推理代码以及模型权重全部开源,无需微调,开箱即用。

来自主题: AI资讯
9513 点击    2023-12-11 20:40
AI质检要变天了

AI质检要变天了

AI质检要变天了

传统机器视觉玩家正补全算法和智能化能力,而AI质检新势力们则继续向标准化软硬件方向拓展。工业质检的市场格局正在发生变化。

来自主题: AI资讯
6965 点击    2023-12-07 11:07
美图发布自研视觉大模型4.0,主打AI设计与AI视频

美图发布自研视觉大模型4.0,主打AI设计与AI视频

美图发布自研视觉大模型4.0,主打AI设计与AI视频

12月5-6日,主题为“未来AI设计”的美图创造力大会在厦门举行。美图公司发布自研AI视觉大模型MiracleVision(奇想智能)4.0版本,主打AI设计与AI视频。

来自主题: AI资讯
5409 点击    2023-12-06 17:24