AI资讯新闻榜单内容搜索-视觉

苹果盯上Prompt AI, 不是买产品，是要伯克利团队的[视觉大脑]

根据外媒 CNBC 消息，苹果公司正和计算机视觉领域的初创企业 Prompt AI，推进收购事宜的 “最后阶段谈判”。

来自主题: AI资讯

7583 点击 2025-10-15 12:31

美图和奇点星宇，设计Agent产品都在疯狂生长

8 月榜单，最值得关注的变化是 Lovart 的访问量上升，8 月访问量上涨了 68.08% 至 323w，进入榜单。Lovart，读者想必已经熟悉，是奇点星宇的另一款 AI 视觉类产品，其产品核心设计为画布+对话框+编辑工具箱，也就是用户指导 AI 干活，

来自主题: AI技术研报

9313 点击 2025-10-15 12:19

ICLR神秘论文曝光！SAM3用「概念」看世界，重构视觉AI新范式

2023年Meta推出SAM，随后SAM 2扩展到视频分割，性能再度突破。近日，SAM 3悄悄现身ICLR 2026盲审论文，带来全新范式——「基于概念的分割」（Segment Anything with Concepts），这预示着视觉AI正从「看见」迈向真正的「理解」。

来自主题: AI技术研报

8178 点击 2025-10-15 12:18

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

8997 点击 2025-10-15 12:12

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报

7611 点击 2025-10-14 09:58

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

8031 点击 2025-10-13 11:02

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化

来自主题: AI技术研报

8804 点击 2025-10-13 10:28

告别AI“乱画图表”！港中文团队发布首个结构化图像生成编辑系统

AI竟然画不好一张 “准确” 的图表？AI生图标杆如FLUX.1、GPT-Image，已经能生成媲美摄影大片的自然图像，却在柱状图、函数图这类结构化图像上频频出错，要么逻辑混乱、数据错误，要么就是标签错位。

来自主题: AI技术研报

9588 点击 2025-10-12 15:03

库克虎口夺食：马斯克盯上的北大校友AI公司被苹果抢走

库克和马斯克都盯上的CV公司！打开Prompt AI官网，上面介绍了这家公司的定位：一家专注于消费应用视觉智能的AI公司。这家总部位于旧金山的初创公司，其核心团队非常UC伯克利范儿：

来自主题: AI资讯

10228 点击 2025-10-11 15:56

Insta360最新全景综述：全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前，Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师，欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报

7108 点击 2025-10-06 14:46