AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
7201 点击    2024-11-19 21:01
打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

36氪获悉,近日, 深圳个元科技有限公司(以下简称“个元科技”)完成4600万美元B轮融资,本轮融资由 UP Partners 领投,融得资金将主要用于扩张市场、加大技术研发。

来自主题: AI资讯
6404 点击    2024-11-18 09:20
当AI取代真相,大模型如何一步步诱骗了人类的文明?

当AI取代真相,大模型如何一步步诱骗了人类的文明?

当AI取代真相,大模型如何一步步诱骗了人类的文明?

如今,人们选择餐厅,多半会打开app搜索一番,再看看排名。然而美国奥斯汀的一家餐厅Ethos,社交媒体instagram宣称它是当地排名第一,拥有7万余粉丝。但这家看起来很靠谱的餐厅根本不存在,食物和场地的照片都由人工智能生成。可它家发布在社媒上的帖子却得到了数千名不知情者的点赞和评论。大模型通过视觉形式误导公众认知,这样的例子在今天比比皆是。

来自主题: AI资讯
8088 点击    2024-11-16 21:12
钉钉就是想做AI时代的那个“超级有用”

钉钉就是想做AI时代的那个“超级有用”

钉钉就是想做AI时代的那个“超级有用”

大模型狂热继续,但今天依然沿着一条路或者一个路线图前进的公司或产品却并不多了,有的“模型”公司做着做着没模型了,有的从情感到生产力再到视觉做了个遍,有的干脆从c转到b,也不再批评过往b端必做的项目制了。

来自主题: AI资讯
9023 点击    2024-11-14 14:47
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。

来自主题: AI资讯
8133 点击    2024-11-14 14:36
AI图片出海洞察:一半的产品访问量环比下滑,是谁在逆势增长

AI图片出海洞察:一半的产品访问量环比下滑,是谁在逆势增长

AI图片出海洞察:一半的产品访问量环比下滑,是谁在逆势增长

自 8 月起白鲸出海联合非凡产研,同时综合公开数据与多方信源,对全球 AI 图片、AI 视频两个赛道进行系统性梳理与观察,按月发布 AI 应用榜(AI 图片 web 和 APP,AI 视频 web 和 APP,一共 4 个垂直榜单)并做榜单深度解读和产品洞察,来长期追踪全球 AIGC 应用的迭代方向,以及在 AI 浪潮下,中国厂商/华人团队在图片与视频 2 个视觉相关垂直赛道的探索和创新应用。

来自主题: AI资讯
5159 点击    2024-11-12 13:11
不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

近日,卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench,这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本(Natural Adversarial Samples)——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报
3839 点击    2024-11-09 10:27
让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟:任何行业现在都能搜索和汇总大量视觉数据

为提高生产力、优化流程和创造更加安全的空间,埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能体。

来自主题: AI资讯
5185 点击    2024-11-09 10:14
详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

近期,智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

来自主题: AI资讯
5271 点击    2024-11-09 09:50
我在淘天做算法|十年拍立淘,一部视觉算法技术演变史

我在淘天做算法|十年拍立淘,一部视觉算法技术演变史

我在淘天做算法|十年拍立淘,一部视觉算法技术演变史

计算机视觉(Computer Vision)的工作原理与人类视觉类似,但需要机器依靠摄像头、数据和算法在很短的时间内完成任务。

来自主题: AI资讯
5462 点击    2024-11-07 20:22