AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。

来自主题: AI资讯

8486 点击 2024-11-14 14:36

AI图片出海洞察：一半的产品访问量环比下滑，是谁在逆势增长

AI图片出海洞察：一半的产品访问量环比下滑，是谁在逆势增长

AI图片出海洞察：一半的产品访问量环比下滑，是谁在逆势增长

自 8 月起白鲸出海联合非凡产研，同时综合公开数据与多方信源，对全球 AI 图片、AI 视频两个赛道进行系统性梳理与观察，按月发布 AI 应用榜（AI 图片 web 和 APP，AI 视频 web 和 APP，一共 4 个垂直榜单）并做榜单深度解读和产品洞察，来长期追踪全球 AIGC 应用的迭代方向，以及在 AI 浪潮下，中国厂商/华人团队在图片与视频 2 个视觉相关垂直赛道的探索和创新应用。

来自主题: AI资讯

5504 点击 2024-11-12 13:11

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

近日，卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench，这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本（Natural Adversarial Samples）——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报

4132 点击 2024-11-09 10:27

让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

为提高生产力、优化流程和创造更加安全的空间，埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能体。

来自主题: AI资讯

5630 点击 2024-11-09 10:14

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

近期，智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA（Vision-Language-Action Model，即视觉-语言-动作模型），拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

来自主题: AI资讯

6139 点击 2024-11-09 09:50

我在淘天做算法｜十年拍立淘，一部视觉算法技术演变史

我在淘天做算法｜十年拍立淘，一部视觉算法技术演变史

我在淘天做算法｜十年拍立淘，一部视觉算法技术演变史

计算机视觉(Computer Vision)的工作原理与人类视觉类似，但需要机器依靠摄像头、数据和算法在很短的时间内完成任务。

来自主题: AI资讯

5772 点击 2024-11-07 20:22

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能通过选择最佳候选图像来实际改善生成的图像。

来自主题: AI技术研报

6255 点击 2024-11-06 15:07

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

来自主题: AI技术研报

4689 点击 2024-11-05 15:28

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

SegVG是一种新的视觉定位方法，通过将边界框注释转化为像素级分割信号来增强模型的监督信号，同时利用三重对齐模块解决特征域差异问题，提升了定位准确性。实验结果显示，SegVG在多个标准数据集上超越了现有的最佳模型，证明了其在视觉定位任务中的有效性和实用性。

来自主题: AI技术研报

4454 点击 2024-11-05 14:56

Allegro：开创商业级视频生成新纪元

Allegro：开创商业级视频生成新纪元

Allegro：开创商业级视频生成新纪元

Allegro 是一款先进的商业级视频生成模型，由Rhymes AI团队开发。它通过将描述性文本转换为动态视觉内容，为用户提供了一种灵活且可控的视频创作方法。

来自主题: AI技术研报

7899 点击 2024-11-02 17:15

上一页当前第62页,共84页下一页