AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

你为什么选了做视觉有关的方向呢?跟你对市场、对成都的观察有关吗?我们现在用的很多传统的 APP,包括很多操作系统,我觉得未来会被替代掉的。因为很多是很“反人类”的设计。这些东西的本质是“系统状态的流转”,没有一个正常人喜欢用这些系统。而这部分,数据的流转,是 Agent 能替我们做的。最终一定会剩下一些简洁的信息要呈现给人——我们做的,反而应该是这个部分。

来自主题: AI资讯
9892 点击    2026-06-15 09:26
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物,但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界?

来自主题: AI技术研报
5430 点击    2026-06-15 09:19
CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧,扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像,却无法回答场景中有哪些目标、目标位于何处,以及不同视角下的空间结构如何变化,那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报
8964 点击    2026-06-15 09:18
CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队,提出首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow,相关成果入选 CVPR 2026。它首次将视觉编码(写脑)与解码(读脑)整合到同一可逆流结构中,打通视觉感知与神经活动之间的双向通路,为理解人类视觉认知机制、构建下一代通用视觉假体与双向脑机接口提供了全新范式。

来自主题: AI技术研报
7377 点击    2026-06-13 10:12
MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

MBench: 清华x腾讯联合定义视频世界模型的长期记忆能力

随着视频生成技术的发展,模型正在从短视频片段合成,向流式长视频生成演进。然而,仅仅做到视觉上的逼真是不够的。一个功能完备的视频世界模型,必须能够在长时序交互中保持稳定的内部状态,并遵循真实世界的物理定律与逻辑规则。

来自主题: AI技术研报
6793 点击    2026-06-11 14:30
RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。

来自主题: AI技术研报
6190 点击    2026-06-10 14:40
Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³,首次揭示了三维视觉学习的 Bitter Lesson:标准的视觉语言模型 + scale 数据就是最简单有效的范式,针对特定任务的架构、损失函数以及数据增强的设计,甚至是 regression 的 formulation,均不是三维视觉学习的必要条件。

来自主题: AI技术研报
6317 点击    2026-06-09 14:31
Anthropic偷跑代码又秒删,GPT-5.6震撼升级决战Mythos!

Anthropic偷跑代码又秒删,GPT-5.6震撼升级决战Mythos!

Anthropic偷跑代码又秒删,GPT-5.6震撼升级决战Mythos!

GPT-5.6发布候选版本kindle-alpha敲定,前端和视觉能力大幅跃升。与此同时,Claude Mythos 5在API中闪现又秒删。双雄争霸,好戏开始!

来自主题: AI资讯
7183 点击    2026-06-08 10:47
Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

Z Potentials|CVPR 现场对话苏度科技团队:没有遥控器,没有隔离带,只有真实世界随机的考卷

2026 年 6 月的科罗拉多州丹佛市,全球计算机视觉与模式识别领域的顶级学术盛会 CVPR 正在召开,最前沿的视觉模型、机器人技术、下一代智能系统全都在同一个舞台上被反复讨论和辩证。

来自主题: AI资讯
9424 点击    2026-06-08 09:48