AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品

浙大、腾讯优图、华中科技大学的团队,提出轻量化MobileMamba! 既良好地平衡了效率与效果,推理速度远超现有基于Mamba的模型。

来自主题: AI技术研报
7321 点击    2024-12-01 14:27
关于计算机视觉中的自回归模型,这篇综述一网打尽了

关于计算机视觉中的自回归模型,这篇综述一网打尽了

关于计算机视觉中的自回归模型,这篇综述一网打尽了

随着计算机视觉领域的不断发展,自回归模型作为一种强大的生成模型,在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。然而,由于该领域的快速发展,及时、全面地了解自回归模型的研究现状和进展变得至关重要。本文旨在对视觉领域中的自回归模型进行全面综述,为研究人员提供一个清晰的参考框架。

来自主题: AI技术研报
7152 点击    2024-12-01 14:21
Chroma出售给AI人工智能音频公司 Bronze

Chroma出售给AI人工智能音频公司 Bronze

Chroma出售给AI人工智能音频公司 Bronze

Chroma,一家致力于为移动设备打造新型音频视觉娱乐的初创公司。

来自主题: AI资讯
2778 点击    2024-11-29 16:36
比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型(如VLMs,例如Minimax、Qwen-V)和尖端图像生成技术(如Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。

来自主题: AI技术研报
9360 点击    2024-11-29 09:53
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

来自主题: AI技术研报
5275 点击    2024-11-27 14:41
深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

Jiaming Song详细介绍了Diffusion模型在视觉生成领域的前沿研究,强调其在提升生成视觉模型质量中的关键作用。他分享了自己从斯坦福大学的博士研究到加入NVIDIA和Luma AI的历程,展示了如何将贝叶斯非参数模型的知识应用到生成式AI中,推动了视觉模型在生成质量和速度上的显著提升。

来自主题: AI资讯
5691 点击    2024-11-24 19:48
沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。

来自主题: AI资讯
7041 点击    2024-11-23 23:16
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
8263 点击    2024-11-22 15:54
从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

近年来,AI for Science 发展提速,不仅为科研领域带来创新研究思路,同时也拓宽了 AI 的落地通路,为其提供了更多具有挑战性的应用场景。在这个过程中,越来越多的 AI 领域研究人员开始关注医疗、材料、生物等传统科研领域,探索其中的研究难点与行业挑战。

来自主题: AI技术研报
6727 点击    2024-11-20 14:30
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5330 点击    2024-11-19 21:01