AI资讯新闻榜单内容搜索-视觉

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？

来自主题: AI技术研报

8934 点击 2025-02-22 21:27

机器人视觉控制新范式！ByteDance Research新算法实现通过性能SOTA

世界模型（World Model）作为近年来机器学习和强化学习的研究热点，通过建立智能体对其所处环境的一种内部表征和模拟，能够加强智能体对于世界的理解，进而更好地进行规划和决策。

来自主题: AI技术研报

7455 点击 2025-02-21 14:28

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

6814 点击 2025-02-21 09:54

为苹果、三星提供体感交互内容，AI硬件内容平台「葫乐科技」获数千万元Pre-B轮融资

硬氪获悉，近日AI硬件内容平台「葫乐科技」宣布完成数千万元Pre-B轮融资，本轮融资由视觉特效和虚拟现实内容提供商数字王国领投，资金将用于研发投入、生态建设与品牌市场拓展。

来自主题: AI资讯

5368 点击 2025-02-21 09:12

速递｜微软发布首个AI游戏生成模型Muse，加速推进游戏生成

微软研究院创建了 Muse，这是首个能够根据视觉或玩家控制器动作生成游戏环境的生成性 AI 模型。它理解 3D 游戏世界和游戏物理，并能够对玩家与游戏的互动做出反应。

来自主题: AI资讯

5842 点击 2025-02-20 16:36

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

8263 点击 2025-02-19 10:02

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯

9460 点击 2025-02-17 17:37