AI资讯新闻榜单内容搜索-视觉

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

让AI看懂95万物种，并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。

来自主题: AI技术研报

6858 点击 2025-06-29 16:59

紫东太初开源视觉神经增强方法，即插即用终结多模态幻觉 | ACL 2025

通过“视觉神经增强”机制，直接放大模型中的视觉关键注意力头输出，显著降低模型的幻觉现象。

来自主题: AI技术研报

8029 点击 2025-06-28 11:25

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

7525 点击 2025-06-28 11:18

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

9636 点击 2025-06-27 16:26

Black Forest震撼开源FLUX.1 Kontext [dev]：媲美GPT-4o的图像编辑

前段时间，沉寂了很久的Flux官方团队Black Forest Labs发布了新模型：FLUX.1 Kontext，这是一套支持生成与编辑图像的流匹配（flow matching）模型。FLUX.1 Kontext不仅支持文生图，还实现了上下文图像生成功能，可以同时使用文本和图像作为提示词，并能无缝提取修改视觉元素，生成全新且协调一致的画面。

来自主题: AI技术研报

9568 点击 2025-06-27 12:36

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

近年来，diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加，diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中，如何调得较好的超参（如学习率）已经成为了一个巨大的问题，阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报

8243 点击 2025-06-26 15:52