AI资讯新闻榜单内容搜索-视觉模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉模型
刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

为了抢回头把交椅,OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后,OpenAI 红色警报计划中又一记重拳。

来自主题: AI资讯
7985 点击    2025-12-17 08:42
24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

24岁博士生造出空间AI大师G²VLM,让机器人眼明手快

近日,24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型,它是一位拥有空间超能力的视觉语言小能手,不仅能从普通的平面图片中精准地重建出三维世界,还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报
5290 点击    2025-12-15 14:49
美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

外卖大战压力之下,美团正在打一场AI基建的硬仗。 文|邓咏仪 编辑|苏建勋 杨轩 《智能涌现》从多个信息源独家获悉,前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣,近期已经加入美团。 潘欣曾任谷

来自主题: AI资讯
8083 点击    2025-12-10 16:13
视觉推理模型Top1易主了,智谱GLM-4.6V开源

视觉推理模型Top1易主了,智谱GLM-4.6V开源

视觉推理模型Top1易主了,智谱GLM-4.6V开源

这一次,AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后,我们发现写图文并茂的公众号推文,还只是GLM-4.6V能力的一隅。

来自主题: AI资讯
7919 点击    2025-12-09 00:50
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维度拼接后共同加噪训练,从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上,

来自主题: AI技术研报
6588 点击    2025-11-29 13:46
爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

爆火全网FLUX.2重磅上线,开源版Nano Banana来了!

Black Forest Labs的开源视觉模型FLUX.2上新,这是一款专为现实创意工作流程打造,绝非演示噱头的生产力工具,与前代FLUX.1相比,实现了从「会画」到「懂你要画什么」的跃升。

来自主题: AI资讯
8309 点击    2025-11-26 14:12
超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报
7256 点击    2025-10-20 12:19
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯
10045 点击    2025-10-15 17:05
5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

github排名第一,视觉模型与自动化 这两年,RPA+AI(智能自动化流程)经常被提及,在企业/机构数字化转型过程中,自动化和智能化是提升效能的重要方式,而迈向自动化和智能化的第一步则是机器人流程自动化(RPA)。

来自主题: AI资讯
7743 点击    2025-08-25 15:39
大模型时代,通用视觉模型将何去何从?

大模型时代,通用视觉模型将何去何从?

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。

来自主题: AI技术研报
9290 点击    2025-07-02 10:52