AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报
8455 点击    2024-06-17 19:35
视觉语言模型导论:这篇论文能成为你进军VLM的第一步

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。

来自主题: AI技术研报
8672 点击    2024-06-11 10:08
CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

360 度场景生成是计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。

来自主题: AI技术研报
8728 点击    2024-06-11 10:02
329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。

来自主题: AI资讯
9451 点击    2024-06-08 15:57
原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。

来自主题: AI技术研报
8247 点击    2024-06-08 15:55
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

来自主题: AI技术研报
8536 点击    2024-06-03 17:51
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一,但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今,合成数据集正成为一种新兴的,用于替代现实世界数据的方法,但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频,而这并不适用于人群的视频识别任务。

来自主题: AI技术研报
8637 点击    2024-06-01 19:06