AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。因此,研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报
5425 点击    2026-05-18 15:30
对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

想象一个场景:你坐在曼谷一家餐厅,手机对准一张泰语菜单:2026年的AI不仅能把泰文翻译成中文——这已经像是上个时代的把戏了——它还能记住你是素食主义者,从二十道菜里挑出那三道不含肉的,用标准泰语帮你点单,顺便把附近评分最高的甜品店塞进你的下午行程。

来自主题: AI资讯
8799 点击    2026-05-18 10:25
Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

近日,Meta AI 与香港中文大学颠覆性提出了一种全新的视觉推理范式 ATLAS,不用外部工具,不显式生成中间图像,没有视觉监督信号,只用一个离散 word,首次颠覆性地代替 Agentic 和 Latent Visual Reasoning。

来自主题: AI技术研报
7303 点击    2026-05-17 15:07
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

ber!这个五一假期,我也是真够忙的: 自拍、电影、追剧、街头采访、听音乐会,还抽空回老家结了次婚……

来自主题: AI技术研报
9353 点击    2026-05-14 09:31
VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

当前VLA模型常依赖视觉线索而非语言指令,导致在新场景下表现不佳。论文提出LangForce方法,通过引入对数似然比损失,强化模型对语言的依赖,提升其在分布外环境中的泛化能力,并保留语言核心功能。

来自主题: AI技术研报
9685 点击    2026-05-13 15:00
CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

当多模态大语言模型(MLLMs)在面对科学、技术、工程和数学(STEM)领域的视觉推理题时频频「翻车」,一个根本性的问题摆在了所有研究者面前:大模型做不出理科题,究竟是因为「脑子笨」(推理能力受限),还是因为「眼神差」(视觉感知缺陷)?

来自主题: AI技术研报
6580 点击    2026-05-11 16:08
业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

为了理清视觉与世界模型之间的深层联系,并为该领域的未来研究提供一张清晰的脉络图,北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者,发布了首篇视觉世界模型长篇综述:From Seeing to Knowing the World: A Survey of Vision World Models。

来自主题: AI技术研报
7733 点击    2026-05-10 10:40
ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报
6409 点击    2026-05-08 14:07
万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

万帧照片级仿真,打通视觉机器人学习的感知与物理鸿沟:国产仿真器GS-Playground入选RSS 2026

近日,清华大学智能产业研究院(AIR)DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了新一代高通量视觉高保真仿真器 GS-Playground。该成果已被机器人领域国际顶级学术会议 RSS 2026(Robotics: Science and Systems)录用,标志着国内具身智能仿真基础设施在视觉保真度与训练吞吐量两个维度上同时取得了国际领先水平的突破。

来自主题: AI技术研报
7312 点击    2026-05-08 14:06