AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型(VLM)这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互,因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体,这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报
7514 点击    2024-09-04 16:04
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM

防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM

防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM

该论文作者来自复旦大学、中电金信及上海智能视觉计算协同创新中心团队,论文已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收,并将在该大会上进行口头报告(Oral 接收率仅 3.97%)。

来自主题: AI技术研报
6511 点击    2024-09-01 15:33
ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它

ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它

ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它

来自复旦大学视觉与学习实验室的研究者们提出了一种新型的面向视频模型的对抗攻击方法 - 基于扩散模型的视频非限制迁移攻击(ReToMe-VA)。该方法采用逐时间步对抗隐变量优化策略,以实现生成对抗样本的空间不可感知性;同时,在生成对抗帧的去噪过程中引入了递归 token 合并策略,通过匹配及合并视频帧之间的自注意力 token,显著提升了对抗视频的迁移性和时序一致性。

来自主题: AI技术研报
8884 点击    2024-08-27 20:08
首篇「虚拟现实+人工智能」综述!浙大、港中深等发布AI医疗最新报告

首篇「虚拟现实+人工智能」综述!浙大、港中深等发布AI医疗最新报告

首篇「虚拟现实+人工智能」综述!浙大、港中深等发布AI医疗最新报告

本文对AI增强的VR在医疗应用中的技术细节、工作流程和下游应用进行了全面审视,并提出了一个系统性的分类方法,将相关工作分为医学视觉增强、VR医学数据处理和VR辅助干预三个主要类别,为未来跨学科研究提供了基础。

来自主题: AI技术研报
7684 点击    2024-08-27 13:56
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报
9403 点击    2024-08-21 14:20