AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
老黄的Cosmos 3刚发一天,就被一家中国公司反超了

老黄的Cosmos 3刚发一天,就被一家中国公司反超了

老黄的Cosmos 3刚发一天,就被一家中国公司反超了

6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。

来自主题: AI资讯
8479 点击    2026-06-04 09:15
多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0,是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder,实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证,展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报
5790 点击    2026-06-03 15:03
GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架

GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架

GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究,围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作,相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报
7264 点击    2026-06-02 11:23
近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

VAST近期完成合计近2亿美元的A+及A++轮融资,领投方为渶策资本、国寿长三角科创基金。拿到这笔钱的同时,VAST也带来了他们最新的世界模型进展:Project Eden。区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径,Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦。

来自主题: AI资讯
9118 点击    2026-06-01 16:56
Z Potentials|对话Dyna Robotics联创York Yang:把机器人想象成大模型的下一站,是对具身智能最大的误解

Z Potentials|对话Dyna Robotics联创York Yang:把机器人想象成大模型的下一站,是对具身智能最大的误解

Z Potentials|对话Dyna Robotics联创York Yang:把机器人想象成大模型的下一站,是对具身智能最大的误解

连续创业的 York 开启了又一段新征程。过去十几年里,他几乎一直在做软硬一体系统:从计算机视觉、嵌入式,到后来的机器人。他的上一个创业项目——智能购物车 Caper AI,在 2021 年被 Instacart 以 3.5 亿美元收购。

来自主题: AI资讯
9018 点击    2026-06-01 13:56
阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash。该模型最大特点就是多(模)、快(速)、好(用)、省(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。

来自主题: AI资讯
9109 点击    2026-05-29 17:06
刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

2026 年初,国内具身智能赛道掀起了一波开源潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上,尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报
8066 点击    2026-05-29 09:19
触觉具身来了个梦之队:天使轮近亿

触觉具身来了个梦之队:天使轮近亿

触觉具身来了个梦之队:天使轮近亿

过去两年,具身智能的资源与研究重心高度集中于视觉感知,聚焦于“让机器人看懂世界”。

来自主题: AI资讯
9908 点击    2026-05-27 16:53
Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

过去十年,大模型世界里很多最关键的技术路线背后,都能看到Andrew Dai的身影。从早期预训练与监督微调,到后来主流的MoE(Mixture of Experts)架构;从Google Brain最初只有几十人的研究时代,到后来支撑Gemini的大规模数据体系,这位在 Google 工作超过14年的研究科学家,几乎站在了大模型时代每一次关键转折的现场。

来自主题: AI资讯
9021 点击    2026-05-27 16:31