AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。

来自主题: AI技术研报
7660 点击    2024-09-24 12:27
李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

不久之前,李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。 随后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

来自主题: AI资讯
3614 点击    2024-09-23 15:12
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类

类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类

类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类

DeepMind最近的研究提出了一种新框架AligNet,通过模拟人类判断来训练教师模型,并将类人结构迁移到预训练的视觉基础模型中,从而提高模型在多种任务上的表现,增强了模型的泛化性和鲁棒性,为实现更类人的人工智能系统铺平了道路。

来自主题: AI技术研报
9248 点击    2024-09-22 15:00
ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。

来自主题: AI技术研报
9397 点击    2024-09-22 14:00
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

近期,浙大和 Salesforce 学者进一步发现:语言模型或许帮助有限,但是图像模型能够有效地迁移到时序预测领域。

来自主题: AI资讯
3813 点击    2024-09-19 15:24
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

来自主题: AI技术研报
6167 点击    2024-09-19 11:14
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

来自主题: AI技术研报
9050 点击    2024-09-16 21:08