AI资讯新闻榜单内容搜索-视觉模型

Z Potentials｜CVPR 现场对话苏度科技团队：没有遥控器，没有隔离带，只有真实世界随机的考卷

2026 年 6 月的科罗拉多州丹佛市，全球计算机视觉与模式识别领域的顶级学术盛会 CVPR 正在召开，最前沿的视觉模型、机器人技术、下一代智能系统全都在同一个舞台上被反复讨论和辩证。

来自主题: AI资讯

9468 点击 2026-06-08 09:48

零样本&少样本横扫12个工业医疗数据集：西门子×腾讯优图新研究精准定位缺陷，检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟，但当前普遍使用的传统模型在训练时对数据要求较高，需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报

8990 点击 2026-01-19 15:13

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University（MMLab）与 SenseTime Research，提出 Prism Hypothesis（棱镜假说）与 Unified Autoencoding（UAE），尝试用 “频率谱” 的统一视角，把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报

10784 点击 2026-01-15 09:20

刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测

为了抢回头把交椅，OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后，OpenAI 红色警报计划中又一记重拳。

来自主题: AI资讯

9465 点击 2025-12-17 08:42

24岁博士生造出空间AI大师G²VLM，让机器人眼明手快

近日，24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型，它是一位拥有空间超能力的视觉语言小能手，不仅能从普通的平面图片中精准地重建出三维世界，还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报

6235 点击 2025-12-15 14:49

美团AI转向，前字节视觉模型AI平台负责人潘欣加入｜智能涌现独家

外卖大战压力之下，美团正在打一场AI基建的硬仗。文｜邓咏仪编辑｜苏建勋杨轩《智能涌现》从多个信息源独家获悉，前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣，近期已经加入美团。潘欣曾任谷

来自主题: AI资讯

9439 点击 2025-12-10 16:13

视觉推理模型Top1易主了，智谱GLM-4.6V开源

这一次，AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后，我们发现写图文并茂的公众号推文，还只是GLM-4.6V能力的一隅。

来自主题: AI资讯

9359 点击 2025-12-09 00:50

NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！

REG 是一种简单而有效的方法，仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型（如 DINOv2）的 class token 与 latent 在空间维度拼接后共同加噪训练，从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上，

来自主题: AI技术研报

7621 点击 2025-11-29 13:46

爆火全网FLUX.2重磅上线，开源版Nano Banana来了！

Black Forest Labs的开源视觉模型FLUX.2上新，这是一款专为现实创意工作流程打造，绝非演示噱头的生产力工具，与前代FLUX.1相比，实现了从「会画」到「懂你要画什么」的跃升。

来自主题: AI资讯

9681 点击 2025-11-26 14:12

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报

8129 点击 2025-10-20 12:19