AI资讯新闻榜单内容搜索-视觉识别

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉识别
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。

来自主题: AI技术研报
6717 点击    2025-05-02 14:17
北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯
7792 点击    2025-02-17 17:37
商汤「日日新融合大模型交互版」开放商用,限时免费!

商汤「日日新融合大模型交互版」开放商用,限时免费!

商汤「日日新融合大模型交互版」开放商用,限时免费!

能说会看,还响应快、记性好、算得准——如此完美的AI,ta来了!商汤科技日日新融合大模型交互版(SenseNova-5o),今天正式对外提供实时音视频对话服务,限时免费使用。它是商汤“日日新”融合大模型的交互版本,拥有强大的实时交互、视觉识别、记忆思考、持续对话和复杂推理等能力,能帮助AI与人类更自然、更流畅地交流,让每次互动更加智能与贴心,帮助用户全面提升生活与工作体验。

来自主题: AI资讯
4921 点击    2025-01-20 14:29
死刑,高空抛物砸死路人,AI监控能否根治?

死刑,高空抛物砸死路人,AI监控能否根治?

死刑,高空抛物砸死路人,AI监控能否根治?

近年来,基于人工智能视觉识别的AI监控系统越来越多地应用于社区,监控高空抛物也成为典型场景。

来自主题: AI资讯
3137 点击    2024-10-26 11:19
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用,代码已开源。

来自主题: AI技术研报
5589 点击    2024-07-25 18:28
AI视觉算法登柳叶刀!看CT提前10年预测致命心脏疾病,已进入临床使用

AI视觉算法登柳叶刀!看CT提前10年预测致命心脏疾病,已进入临床使用

AI视觉算法登柳叶刀!看CT提前10年预测致命心脏疾病,已进入临床使用

最近,《柳叶刀》上的一篇医学文章发表了有关心血管疾病风险预测的里程碑式结果。之所以如此有影响力,是因为这项名为CaRi-Heart的技术结合了AI视觉识别和预测算法,可以在没有明显症状时提前10年识别出重大的心血管疾病风险。

来自主题: AI技术研报
8610 点击    2024-06-01 18:11
目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞

目标检测领域,迎来了新进展—— Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。

来自主题: AI资讯
9613 点击    2024-05-27 16:47
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报
8413 点击    2024-05-22 13:33
瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International研发AI视觉识别软件,提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International(以下简称Assaia)成立于2018年,该公司开发了一款AI视觉识别软件,能通过人工智能和计算机视觉实时识别并管理机场空侧运营状态,帮助机场、航空公司和地勤人员提升空侧运营管理效率,将航班准点率提高17%,将飞机周转时间缩短11%。

来自主题: AI资讯
8427 点击    2024-05-21 09:29
Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

来自主题: AI技术研报
10482 点击    2024-05-02 17:54