AI资讯新闻榜单内容搜索-视觉

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报

11179 点击 2024-05-27 16:24

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

和多数人一样，在看到 OpenAI 最新发布的「AI 智能助手」GPT-4o 时，MiniMax 创始人兼 CEO 闫俊杰的第一感觉是「惊艳」。他也为那些演示效果着迷，如丝滑的语音交互、实时的视觉理解、语言捕捉甚至包括了「呼吸声」。

来自主题: AI资讯

11038 点击 2024-05-24 14:51

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

11080 点击 2024-05-22 13:33

李飞飞「空间智能」系列新进展，吴佳俊团队新「BVS」套件评估计算机视觉模型

在不久之前的 2024 TED 演讲中，李飞飞详细解读了空间智能（Spatial Intelligence）概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱，并为此正在创建初创公司

来自主题: AI资讯

11189 点击 2024-05-21 15:31

瑞士信息与通信科技公司Assaia International研发AI视觉识别软件，提高机场空侧运营周转效率 | 瑞士创新100强

瑞士信息与通信科技公司Assaia International（以下简称Assaia）成立于2018年，该公司开发了一款AI视觉识别软件，能通过人工智能和计算机视觉实时识别并管理机场空侧运营状态，帮助机场、航空公司和地勤人员提升空侧运营管理效率，将航班准点率提高17%，将飞机周转时间缩短11%。

来自主题: AI资讯

10563 点击 2024-05-21 09:29

OpenAI和谷歌AI多模态重磅更新，生成式AI之战升级第二轮

ChatGPT以及硅谷AI大战终于升级，长出了“眼睛”和“嘴”。5月中旬，OpenAI和谷歌前后发布重磅AI多模态更新，从基于文字交互的ChatGPT全面升级，实现了“声音，文字和视觉”三者全面结合的人工智能新交互功能，而这，也标志着硅谷科技巨头的生成式AI之战正式进入到第二轮。新一轮竞争，只会更加激烈、更加全面。

来自主题: AI资讯

9902 点击 2024-05-20 09:57