AI资讯新闻榜单内容搜索-视觉

重磅！华为联手顶级三甲，AI医疗大模型开源！

6月30日，上海交通大学医学院附属瑞金医院宣布，RuiPath病理大模型的视觉基础模型正式开源。

来自主题: AI资讯

8040 点击 2025-07-02 10:43

清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化（DDO）。

来自主题: AI技术研报

8802 点击 2025-07-02 10:33

扩散模型（Diffusion Models, DMs）近年来展现出巨大的潜力，在计算机视觉和自然语言处理等诸多任务中取得了显著进展，而异常检测（Anomaly Detection, AD）作为人工智能领域的关键研究任务，在工业制造、金融风控、医疗诊断等众多实际场景中发挥着重要作用。

来自主题: AI资讯

7855 点击 2025-07-01 10:55

在日常生活中，我们常通过语言描述寻找特定物体：“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标，一直是计算机视觉的核心挑战。

来自主题: AI技术研报

9696 点击 2025-07-01 10:11

近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。

来自主题: AI技术研报

7695 点击 2025-06-30 15:35

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。

来自主题: AI技术研报

8318 点击 2025-06-30 14:34

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

8061 点击 2025-06-30 10:24

让AI看懂95万物种，并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。

来自主题: AI技术研报

7773 点击 2025-06-29 16:59

通过“视觉神经增强”机制，直接放大模型中的视觉关键注意力头输出，显著降低模型的幻觉现象。

来自主题: AI技术研报

8937 点击 2025-06-28 11:25

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

8496 点击 2025-06-28 11:18