AI资讯新闻榜单内容搜索-视觉

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

终于有人要给大模型安“脖子”了！

来自主题: AI技术研报

8060 点击 2025-11-28 10:03

马斯克将用最强Grok 5，挑战LOL最强战队T1！

马斯克主动为Grok 5戴上「纯视觉感知」与「拟人延迟」的双重镣铐，彻底告别API读数据与暴力手速的作弊时代，向传奇战队T1发起挑战。这是一场终极图灵测试，AI不再靠微操碾压，而是像人类一样通过「看」屏幕理解像素、依靠阅读战术与其后的逻辑推理来博弈。

来自主题: AI资讯

11268 点击 2025-11-27 10:12

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型（VLA）在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型（VLM）动作生成能力，机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而，这类模型在应对长时序或精细操作任务时，仍然存在性能下降的现象。

来自主题: AI技术研报

10789 点击 2025-11-27 09:48

Grok5要来了，马斯克官宣AGI大战：明年大战英雄联盟！电竞圈炸锅，T1战队：李相赫已就绪！Gemini负责人也来了：乐意一战

今天凌晨，“硅谷钢铁侠”马斯克宣战了！他在 X 帖子中提出了一项引来1500多万网友围观的挑战：让Grok 5在2026年以人类视觉和反应速度限制下，对战《英雄联盟》顶级人类战队。

来自主题: AI资讯

9865 点击 2025-11-26 20:45

爆火全网FLUX.2重磅上线，开源版Nano Banana来了！

Black Forest Labs的开源视觉模型FLUX.2上新，这是一款专为现实创意工作流程打造，绝非演示噱头的生产力工具，与前代FLUX.1相比，实现了从「会画」到「懂你要画什么」的跃升。

来自主题: AI资讯

9866 点击 2025-11-26 14:12

Claude Opus 4.5发布！2小时工程测试超人类，前代Sonnet搞不定的活它轻松拿捏

刚刚，Claude Opus 4.5问世，主打编码、Agent与computer use。Opus 4.5在前端开发、视觉能力上显著提升，更擅长使用电脑。在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。

来自主题: AI资讯

10529 点击 2025-11-25 11:00

NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架，实现20倍加速的真实光影重塑!

图像与视频重光照（Relighting）技术在计算机视觉与图形学中备受关注，尤其在电影、游戏及增强现实等领域应用广泛。当前，基于扩散模型的方法能够生成多样且可控的光照效果，但其优化过程通常依赖于语义空间，而语义上的相似性无法保证视觉空间中的物理合理性，导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。

来自主题: AI技术研报

7157 点击 2025-11-25 10:03

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

随着大型视觉语言模型在多个下游任务的广泛应用，其潜在的安全风险也开始快速显露。研究表明，即便是最先进的大型视觉语言模型，也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应，而现有的轻量级的安全对齐方案都具有一定的局限性。

来自主题: AI技术研报

8904 点击 2025-11-25 09:30

4K超分Agent修图师来了！一键救活所有模糊照片

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率，带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。

来自主题: AI技术研报

9094 点击 2025-11-21 17:03

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中，Vision Transformers（ViTs）已发展成为主流架构。然而，近期研究表明，ViT 模型的密集特征中会出现部分与局部语义不一致的伪影（artifact），进而削弱模型在精细定位类任务中的性能表现。因此，如何在不耗费大量计算资源的前提下，保留 ViT 模型预训练核心信息并消除密集特征中的伪影？

来自主题: AI技术研报

8706 点击 2025-11-20 09:33