AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

来自主题: AI技术研报
6767 点击    2025-10-30 10:55
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。

来自主题: AI技术研报
5862 点击    2025-10-30 10:42
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务,创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报
8957 点击    2025-10-29 10:24
大模型在具身推理上「翻车」了?4496 道题全面揭示短板

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

来自主题: AI技术研报
5752 点击    2025-10-28 13:44
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报
6862 点击    2025-10-28 09:26
打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。这次苹果发布的研究成果的确出人意料:他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。

来自主题: AI技术研报
9010 点击    2025-10-27 11:13
超越Runway!Adobe发布新神器:P视频比P图还简单

超越Runway!Adobe发布新神器:P视频比P图还简单

超越Runway!Adobe发布新神器:P视频比P图还简单

全新AI工具EditVerse将图片和视频编辑整合到一个框架中,让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力,EditVerse解决了传统视频编辑复杂、数据稀缺的问题,还能实现罕见的「涌现能力」。在效果上,它甚至超越了商业工具Runway,预示着一个创作新纪元的到来。

来自主题: AI技术研报
7696 点击    2025-10-25 10:42
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。

来自主题: AI技术研报
6741 点击    2025-10-24 10:51
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报
5486 点击    2025-10-23 15:10
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

太卷了,DeepSeek-OCR刚发布不到一天,智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒,那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下:

来自主题: AI技术研报
7721 点击    2025-10-22 23:58