AI资讯新闻榜单内容搜索-多模态

AAAI 2026 Oral | 大模型「爱你在心口难开」？深度隐藏认知让推理更可靠

近年来，大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展，很大程度上依赖于思维链（CoT）技术。所谓 CoT，就是让模型在给出最终答案前，先生成一系列类似「解题步骤」的中间推理。这种方式

来自主题: AI技术研报

5632 点击 2026-01-10 17:00

近日，liko.ai 宣布完成首轮融资，由商汤国香资本、东方富海、讯飞创投、洪泰基金、正轩投资、面壁智能等多家产业及财务投资机构联合投资，光源资本担任孵化方及独家财务顾问。本轮融资将用于端侧视觉语言模型、AI 原生硬件以及家庭多模态通用终端研发。

来自主题: AI资讯

7934 点击 2026-01-10 11:06

今天，Qwen 家族新成员+2，我们正式发布 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列，这两个模型基于 Qwen3-VL 构建，专为多模态信息检索与跨模态理解设计，为图文、视频等混合内容的理解与检索提供统一、高效的解决方案。

来自主题: AI资讯

9046 点击 2026-01-08 23:28

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

5772 点击 2026-01-08 15:23

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

6420 点击 2026-01-08 15:20

想象一下，你正在训练一个未来的家庭机器人。你希望它能像人一样，轻松地叠好一件衬衫，整理杂乱的桌面，甚至系好一双鞋的鞋带。但最大的瓶颈是什么？不是算法，不是硬件，而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报

9807 点击 2026-01-07 10:16

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

7441 点击 2026-01-06 09:50

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

6633 点击 2026-01-05 14:30

你有没有想过，如果你和 AI 聊天，无意中把自己的生日、住址或照片告诉了它，这些信息会不会被它记住？以及我们是否可以像删除微信聊天记录一样，让 AI 忘记这些隐私？

来自主题: AI资讯

10345 点击 2026-01-04 16:07

近期，以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，突破了传统纯文本CoT的限制，在视觉推理任务中取得了优异表现。

来自主题: AI技术研报

8021 点击 2025-12-31 08:29