AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9562 点击    2024-07-13 20:01
MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。

来自主题: AI技术研报
9621 点击    2024-07-13 18:39
CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报
8709 点击    2024-07-11 20:31
Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

下一代视觉模型会摒弃patch吗?Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构,让Transformer直接学习单个像素而不是16×16的patch,结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报
4475 点击    2024-07-09 16:03
自动驾驶团队进军好莱坞?打造电影级Sora,Odyssey开启「荷马史诗」新篇章

自动驾驶团队进军好莱坞?打造电影级Sora,Odyssey开启「荷马史诗」新篇章

自动驾驶团队进军好莱坞?打造电影级Sora,Odyssey开启「荷马史诗」新篇章

今日,Odyssey视觉AI发布预告,这款获得GV 900万美元种子资金的创新技术,旨在用AI技术讲好电影故事。具备强大的视觉内容生成与控制能力,视觉效果对标好莱坞制作水平。

来自主题: AI资讯
5530 点击    2024-07-09 15:56
等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

人工智能(AI)在过去十年里取得了长足进步,特别是在自然语言处理和计算机视觉领域。然而,如何提升 AI 的认知能力和推理能力,仍然是一个巨大的挑战。

来自主题: AI技术研报
8509 点击    2024-07-01 15:13
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。

来自主题: AI资讯
3173 点击    2024-06-27 16:22
太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。

来自主题: AI技术研报
8502 点击    2024-06-25 18:22