AI资讯新闻榜单内容搜索-视觉

前馈式3D的终极路线图来了！五大核心战线，一文看清未来三维重建该往哪走

从单幅图像恢复三维结构，到多视图场景建模、动态 4D 重建，再到机器人、自动驾驶、SLAM 与视频生成，如何让模型在不依赖逐场景优化的前提下，直接、高效地理解并重建三维世界，正在成为 3D 视觉领域的

来自主题: AI技术研报

9644 点击 2026-04-26 12:09

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9768 点击 2026-04-24 16:13

前OpenAI工程师团队推出 AI 原生无限视觉浏览器原型Flipbook，颠覆HTML！

想象一下：你打开浏览器，没有代码、没有 HTML、没有 CSS 布局引擎。屏幕上每一帧画面，都是 AI 模型实时生成的像素视频流。满满的科幻降临既视感！这就是 Zain Shah（前 OpenAI、YC 校友）和团队刚刚发布的 Flipbook 原型。

来自主题: AI资讯

11497 点击 2026-04-24 10:46

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

近日，腾讯混元团队提出HY-SOAR （Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报

8166 点击 2026-04-23 14:44

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

这个生物医学视觉推理框架，被CVPR 2026接收了！

来自主题: AI技术研报

6835 点击 2026-04-22 09:11

ChatGPT Images 2.0震撼发布！碾压谷歌Nano Banana，设计真要完了

北京时间凌晨 3 点，直播准时开始，OpenAI 发布了 ChatGPT Images 2.0。据介绍，「ChatGPT Images 2.0 是下一步进化：一个最先进的模型，能够处理复杂的视觉任务，并生成精确、可直接使用的视觉内容。」

来自主题: AI资讯

9291 点击 2026-04-22 08:58

AURA：让视频大模型从“看完再答”，走向“边看边理解、边看边响应”

近年来，视频多模态大模型（VideoLLM）发展迅猛，在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强，业界也开始思考一个更重要的问题：视频大模型能不能不再只是 “看完一段视频再回答”，而是真正进入实时世界，持续观察、实时理解，并在关键时刻主动给出反馈？

来自主题: AI技术研报

6466 点击 2026-04-21 09:23

首个Qwen3.6开源模型来了！编程视觉双提升，还兼容OpenClaw

3B激活参数，视觉能力直逼Claude Sonnet 4.5。

来自主题: AI资讯

9451 点击 2026-04-17 10:07

TPAMI 2026 | 北大彭宇新团队提出CPL++框架，实现视觉定位模型的「自知之明」和「自我纠错」

本文是北京大学彭宇新教授团队在视觉定位方向的最新研究成果，相关论文已被顶级国际期刊 IEEE TPAMI 接收。为视觉定位模型赋予「自知之明」能力 —— 通过自监督的关联校正与验证模块，在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明，让模型学会「自我纠错」，是突破弱监督视觉定位瓶颈的有效途径。

来自主题: AI技术研报

8070 点击 2026-04-17 08:41

Claude Opus 4.7深夜炸场！胜任更长任务、自主检查，视觉能力拉满

两眼一睁，Claude又更新了。Anthropic发布新一代旗舰大模型Claude Opus 4.7。该模型在高级软件工程方面相比Opus 4.6有显著提升，尤其在处理最复杂的任务时提升明显；高分辨率图像处理能力大幅提升，是此前Claude模型的3倍以上

来自主题: AI资讯

9752 点击 2026-04-17 07:30