AI资讯新闻榜单内容搜索-视觉

ECCV 2024 oral | 首次基于深度聚类的多模态融合，上交、伯克利提出双向结构对齐的融合网络新SOTA！

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。

来自主题: AI技术研报

11436 点击 2024-09-22 14:00

时序＝图像？无需微调，视觉MAE跨界比肩最强时序预测大模型

近期，浙大和 Salesforce 学者进一步发现：语言模型或许帮助有限，但是图像模型能够有效地迁移到时序预测领域。

来自主题: AI资讯

5702 点击 2024-09-19 15:24

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

来自主题: AI技术研报

7596 点击 2024-09-19 11:14

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

来自主题: AI技术研报

10462 点击 2024-09-16 21:08

阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。

来自主题: AI技术研报

8947 点击 2024-09-13 21:27

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

Mistral的多模态大模型来了！Pixtral 12B正式发布，同时具备语言和视觉处理能力。

来自主题: AI资讯

5645 点击 2024-09-12 15:04

非凡访谈｜拟仁智能 CEO：致力于研发第三代基于AI+视觉的新人机交互方式

在国内竞争激烈、同质化过度的数字人赛道上，有一家独特的公司，无惧元宇宙从“如日中天”到“光环褪却”的外部变化，始终坚持借助“数字人”这一媒介形态，打造第三代基于AI+视觉的新人机交互方式。这就是拟仁智能。

来自主题: AI资讯

8050 点击 2024-09-12 09:50

格灵深瞳：“AI之眼”商业化前路几何？

作为A股第一家AI计算机视觉上市公司，格灵深瞳在多个人工智能细分应用领域中较早完成了产品布局，目前尚处于产业化与市场拓展的发展阶段，未来能否在新应用领域实现业务拓展，将成为企业“生死存亡”的关键。

来自主题: AI资讯

13153 点击 2024-09-11 10:13

走近张大鹏教授：哈工大走出的中国第一位人工智能博士

张大鹏，加拿大皇家科学院院士，加拿大工程院院士，国际电气与电子工程师协会终身会士（IEEE Fellow），国际模式识别协会会士，亚太人工智能学会会士，香港中文大学（深圳）数据科学学院校长学勤讲座教授，深圳市人工智能与机器人研究院（AIRS）计算机视觉研究中心主任，香港中文大学（深圳）—联易融计算机视觉与人工智能联合实验室主任，以及香港理工大学荣誉教授。

来自主题: AI技术研报

9717 点击 2024-09-10 17:25

突破医疗影像分析：AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法，旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型（VLMs）中的视觉与文本对齐特性，通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯

6514 点击 2024-09-10 14:39