AI资讯新闻榜单内容搜索-VLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VLM
在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

刚刚,智谱把清影背后的图生视频模型CogVideoX-5B-I2V给开源了!(在线可玩) 一起开源的还有它的标注模型cogvlm2-llama3-caption。

来自主题: AI资讯
3777 点击    2024-09-19 14:54
突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法,旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型(VLMs)中的视觉与文本对齐特性,通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯
3880 点击    2024-09-10 14:39
为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型(VLM)这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互,因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体,这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报
7418 点击    2024-09-04 16:04
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报
9337 点击    2024-08-21 14:20
三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。

来自主题: AI资讯
3149 点击    2024-08-07 19:06
关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。

来自主题: AI技术研报
9942 点击    2024-07-29 20:32
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
8643 点击    2024-07-16 19:43
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9485 点击    2024-07-13 20:01