AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?

来自主题: AI技术研报
8934 点击    2025-02-22 21:27
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。

来自主题: AI技术研报
7455 点击    2025-02-21 14:28
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

来自主题: AI技术研报
6814 点击    2025-02-21 09:54
为苹果、三星提供体感交互内容,AI硬件内容平台「葫乐科技」获数千万元Pre-B轮融资

为苹果、三星提供体感交互内容,AI硬件内容平台「葫乐科技」获数千万元Pre-B轮融资

为苹果、三星提供体感交互内容,AI硬件内容平台「葫乐科技」获数千万元Pre-B轮融资

硬氪获悉,近日AI硬件内容平台「葫乐科技」宣布完成数千万元Pre-B轮融资,本轮融资由视觉特效和虚拟现实内容提供商数字王国领投,资金将用于研发投入、生态建设与品牌市场拓展。

来自主题: AI资讯
5368 点击    2025-02-21 09:12
速递|微软发布首个AI游戏生成模型Muse,加速推进游戏生成

速递|微软发布首个AI游戏生成模型Muse,加速推进游戏生成

速递|微软发布首个AI游戏生成模型Muse,加速推进游戏生成

微软研究院创建了 Muse,这是首个能够根据视觉或玩家控制器动作生成游戏环境的生成性 AI 模型。它理解 3D 游戏世界和游戏物理,并能够对玩家与游戏的互动做出反应。

来自主题: AI资讯
5842 点击    2025-02-20 16:36
首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

Transformer 架构在过去几年中通过注意力机制在多个领域(如计算机视觉、自然语言处理和长序列任务)中取得了非凡的成就。然而,其核心组件「自注意力机制」 的计算复杂度随输入 token 数量呈二次方增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报
8263 点击    2025-02-19 10:02
北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯
9460 点击    2025-02-17 17:37
Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!

来自主题: AI资讯
6304 点击    2025-02-17 09:37
AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评

AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评

AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评

新型验证码IllusionCAPTCHA,利用视觉错觉和诱导性提示,使AI难以识别,而人类用户能轻松通过。实验表明,该验证码能有效防御大模型攻击,同时提升用户体验,为验证码技术提供了新思路。

来自主题: AI技术研报
6595 点击    2025-02-13 15:45