AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯
8248 点击    2024-05-27 16:31
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报
8938 点击    2024-05-27 16:24
MiniMax 闫俊杰:今天的 AI 应用都不会成为 Super App,但这不重要

MiniMax 闫俊杰:今天的 AI 应用都不会成为 Super App,但这不重要

MiniMax 闫俊杰:今天的 AI 应用都不会成为 Super App,但这不重要

和多数人一样,在看到 OpenAI 最新发布的「AI 智能助手」GPT-4o 时,MiniMax 创始人兼 CEO 闫俊杰的第一感觉是「惊艳」。他也为那些演示效果着迷,如丝滑的语音交互、实时的视觉理 解、语言捕捉甚至包括了「呼吸声」。

来自主题: AI资讯
8502 点击    2024-05-24 14:51
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报
8480 点击    2024-05-22 13:33
李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创建初创公司

来自主题: AI资讯
9527 点击    2024-05-21 15:31
瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International(以下简称Assaia)成立于2018年,该公司开发了一款AI视觉识别软件,能通过人工智能和计算机视觉实时识别并管理机场空侧运营状态,帮助机场、航空公司和地勤人员提升空侧运营管理效率,将航班准点率提高17%,将飞机周转时间缩短11%。

来自主题: AI资讯
8504 点击    2024-05-21 09:29
OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

OpenAI和谷歌AI多模态重磅更新,生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级,长出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后发布重磅AI多模态更新,从基于文字交互的ChatGPT全面升级,实现了“声音,文字和视觉”三者全面结合的人工智能新交互功能,而这,也标志着硅谷科技巨头的生成式AI之战正式进入到第二轮。新一轮竞争,只会更加激烈、更加全面。

来自主题: AI资讯
8363 点击    2024-05-20 09:57
HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。

来自主题: AI技术研报
10128 点击    2024-05-17 17:49
视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

OpenaAI给2024年5月14日的这场发布会取名“春季功能更新”,就像它们形容当初ChatGPT的发布是一次“低调的研究预览”一样。

来自主题: AI资讯
9339 点击    2024-05-14 21:50