AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

物理AI的「原生」时刻：原力灵机发布具身大模型DM0

物理AI的「原生」时刻：原力灵机发布具身大模型DM0

物理AI的「原生」时刻：原力灵机发布具身大模型DM0

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

6920 点击 2026-03-11 15:04

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

9170 点击 2026-03-11 09:25

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

7631 点击 2026-03-11 09:22

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

在 AI 视觉生成领域，扩散模型（DM）凭借其强大的高保真数据生成能力，已成为图像合成、视频生成等多模态任务的核心框架。然而，预训练后的扩散模型如何高效适配下游应用需求，一直是行业面临的关键挑战。

来自主题: AI技术研报

8246 点击 2026-03-10 09:30

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型，VideoWorld 系列工作在业界首次实现无需依赖语言模型，即可认知世界。

来自主题: AI技术研报

6431 点击 2026-03-09 14:29

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

是不是经常纠结于 VLA（视觉 - 语言 - 动作）模型的训练技巧？面对层出不穷的 VLA 算法，是不是常常感到眼花缭乱，不知道哪种数据模态、训练策略最有效？别急，丰田研究院（TRI）和清华大学刚刚

来自主题: AI技术研报

9208 点击 2026-03-08 10:38

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

近年来，视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用，但在真实业务环境中，“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报

6478 点击 2026-03-06 09:32

告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

人类在创作艺术时，大脑并非一味地输出，而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

来自主题: AI技术研报

9525 点击 2026-03-05 14:25

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

激进投资者艾略特投资管理公司已持有Pinterest 价值 10 亿美元股份，该公司以积极参与企业决策而闻名。该机构首次投资这家社交平台是在 2022 年。

来自主题: AI资讯

9433 点击 2026-03-05 09:09

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

长期以来，计算机视觉领域陷入了一个 “表征（Representation）” 的执念。我们习惯设计各种精巧的 Encoder，试图将动态世界压缩成一组特征向量。然而，视频作为现实的高维投影，其熵值之高、动态之复杂，让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报

6736 点击 2026-03-05 09:08

上一页当前第14页,共84页下一页