AI资讯新闻榜单内容搜索-视觉

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

Mistral的多模态大模型来了！Pixtral 12B正式发布，同时具备语言和视觉处理能力。

来自主题: AI资讯

4087 点击 2024-09-12 15:04

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

在国内竞争激烈、同质化过度的数字人赛道上，有一家独特的公司，无惧元宇宙从“如日中天”到“光环褪却”的外部变化，始终坚持借助“数字人”这一媒介形态，打造第三代基于AI+视觉的新人机交互方式。这就是拟仁智能。

来自主题: AI资讯

6626 点击 2024-09-12 09:50

格灵深瞳：“AI之眼”商业化前路几何？

作为A股第一家AI计算机视觉上市公司，格灵深瞳在多个人工智能细分应用领域中较早完成了产品布局，目前尚处于产业化与市场拓展的发展阶段，未来能否在新应用领域实现业务拓展，将成为企业“生死存亡”的关键。

来自主题: AI资讯

9552 点击 2024-09-11 10:13

走近张大鹏教授：哈工大走出的中国第一位人工智能博士

张大鹏，加拿大皇家科学院院士，加拿大工程院院士，国际电气与电子工程师协会终身会士（IEEE Fellow），国际模式识别协会会士，亚太人工智能学会会士，香港中文大学（深圳）数据科学学院校长学勤讲座教授，深圳市人工智能与机器人研究院（AIRS）计算机视觉研究中心主任，香港中文大学（深圳）—联易融计算机视觉与人工智能联合实验室主任，以及香港理工大学荣誉教授。

来自主题: AI技术研报

7862 点击 2024-09-10 17:25

突破医疗影像分析：AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法，旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型（VLMs）中的视觉与文本对齐特性，通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯

3958 点击 2024-09-10 14:39

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

论文共同第一作者郑淼，来自于周泽南领导的百川对齐团队，毕业于北京大学，研究方向包括大语言模型、多模态学习以及计算机视觉等，曾主导MMFlow等开源项目。

来自主题: AI技术研报

5073 点击 2024-09-10 11:40

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

大模型时代，有个大家普遍焦虑的问题：如何落地?往哪落地?

来自主题: AI资讯

7298 点击 2024-09-09 14:52

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

基于图神经网络的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘、计算机视觉和自然语言处理。考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。

来自主题: AI资讯

3462 点击 2024-09-09 14:23

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

7480 点击 2024-09-06 11:59

融资1000万美金，最近海外这款AI+视觉工具爆火，旨在将复杂想法可视化

在信息过载的时代，快速而准确地传达信息显得尤为重要。

来自主题: AI技术研报

7607 点击 2024-09-05 15:43