AI资讯新闻榜单内容搜索-视觉

突破医疗影像分析：AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法，旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型（VLMs）中的视觉与文本对齐特性，通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯

6514 点击 2024-09-10 14:39

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

论文共同第一作者郑淼，来自于周泽南领导的百川对齐团队，毕业于北京大学，研究方向包括大语言模型、多模态学习以及计算机视觉等，曾主导MMFlow等开源项目。

来自主题: AI技术研报

6845 点击 2024-09-10 11:40

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

大模型时代，有个大家普遍焦虑的问题：如何落地?往哪落地?

来自主题: AI资讯

9217 点击 2024-09-09 14:52

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

基于图神经网络的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘、计算机视觉和自然语言处理。考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。

来自主题: AI资讯

5234 点击 2024-09-09 14:23

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

10187 点击 2024-09-06 11:59

融资1000万美金，最近海外这款AI+视觉工具爆火，旨在将复杂想法可视化

在信息过载的时代，快速而准确地传达信息显得尤为重要。

来自主题: AI技术研报

9575 点击 2024-09-05 15:43

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型（VLM）这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互，因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体，这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报

9809 点击 2024-09-04 16:04