AI资讯新闻榜单内容搜索-视觉

比较AI编码平台：用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型（如VLMs，例如Minimax、Qwen-V）和尖端图像生成技术（如Flux 1.1）的快速发展，我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解，这些工具使得生产广告级别的关键视觉（KVs）成为可能，且具有显著的真实感。

来自主题: AI技术研报

12586 点击 2024-11-29 09:53

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

在当今多模态领域，CLIP 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。

来自主题: AI技术研报

7155 点击 2024-11-27 14:41

深度 | Luma AI华人首席科学家Jiaming：AI时代的视觉革命

Jiaming Song详细介绍了Diffusion模型在视觉生成领域的前沿研究，强调其在提升生成视觉模型质量中的关键作用。他分享了自己从斯坦福大学的博士研究到加入NVIDIA和Luma AI的历程，展示了如何将贝叶斯非参数模型的知识应用到生成式AI中，推动了视觉模型在生成质量和速度上的显著提升。

来自主题: AI资讯

8434 点击 2024-11-24 19:48

沈向洋，发了一个可以识别万物的大模型

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X，可以拥有真正的物体级别理解能力。

来自主题: AI资讯

9131 点击 2024-11-23 23:16

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报

10251 点击 2024-11-22 15:54

从计算机视觉向医疗AI，上海交大谢伟迪发布多项成果，登Nature子刊/NeurIPS/CVPR等

近年来，AI for Science 发展提速，不仅为科研领域带来创新研究思路，同时也拓宽了 AI 的落地通路，为其提供了更多具有挑战性的应用场景。在这个过程中，越来越多的 AI 领域研究人员开始关注医疗、材料、生物等传统科研领域，探索其中的研究难点与行业挑战。

来自主题: AI技术研报

9168 点击 2024-11-20 14:30

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等出品，首个多模态版o1开源模型来了—— 代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。

来自主题: AI技术研报

7661 点击 2024-11-19 21:01

打造AI工业视觉大模型，赋能智能制造，「个元科技」获4600万美元B轮融资

36氪获悉，近日，深圳个元科技有限公司（以下简称“个元科技”）完成4600万美元B轮融资，本轮融资由 UP Partners 领投，融得资金将主要用于扩张市场、加大技术研发。

来自主题: AI资讯

6711 点击 2024-11-18 09:20

当AI取代真相，大模型如何一步步诱骗了人类的文明？

如今，人们选择餐厅，多半会打开app搜索一番，再看看排名。然而美国奥斯汀的一家餐厅Ethos，社交媒体instagram宣称它是当地排名第一，拥有7万余粉丝。但这家看起来很靠谱的餐厅根本不存在，食物和场地的照片都由人工智能生成。可它家发布在社媒上的帖子却得到了数千名不知情者的点赞和评论。大模型通过视觉形式误导公众认知，这样的例子在今天比比皆是。

来自主题: AI资讯

8499 点击 2024-11-16 21:12

钉钉就是想做AI时代的那个“超级有用”

大模型狂热继续，但今天依然沿着一条路或者一个路线图前进的公司或产品却并不多了，有的“模型”公司做着做着没模型了，有的从情感到生产力再到视觉做了个遍，有的干脆从c转到b，也不再批评过往b端必做的项目制了。

来自主题: AI资讯

9374 点击 2024-11-14 14:47