AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介，易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive（FutureSightDrive）提出 “时空视觉 CoT”（Spatio-Temporal Chain-of-Thought），让模型直接 “以图思考”，用统一的未来图像帧作为中间推理步骤，联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报

7728 点击 2025-10-06 13:42

机器人感知大升级！轻量化注入几何先验，成功率提升31%

机器人感知大升级！轻量化注入几何先验，成功率提升31%

机器人感知大升级！轻量化注入几何先验，成功率提升31%

VLA模型通常建立在预训练视觉语言模型（VLM）之上，仅基于2D图像-文本数据训练，缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报

7146 点击 2025-09-29 14:53

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近，千寻智能的研究人员注意到，基于模仿学习的视觉运动策略中也存在类似现象，并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报

7705 点击 2025-09-29 14:31

中国团队重新定义“星际之门”！全球首个太空计算星座已实现常态化商用

中国团队重新定义“星际之门”！全球首个太空计算星座已实现常态化商用

中国团队重新定义“星际之门”！全球首个太空计算星座已实现常态化商用

在一场视觉算法挑战中，一组参赛团队将道路识别模型部署至在轨卫星，完成了从图像采集、模型推理到结构化结果回传的全过程。图像未落地，模型也并未运行在地面，所有计算任务均在轨道上完成，最终仅回传识别结果。

来自主题: AI资讯

8895 点击 2025-09-29 10:29

超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

LightVLA 是一个旨在提升 VLA 推理效率且同时提升性能的视觉 token 剪枝框架。当前 VLA 模型在具身智能领域仍面临推理代价大而无法大规模部署的问题，然而大多数免训练剪枝框架依赖于中间注意力输出，并且会面临性能与效率的权衡问题。

来自主题: AI技术研报

6586 点击 2025-09-27 11:25

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而，现有训练范式存在一些核心瓶颈，比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报

8139 点击 2025-09-27 11:13

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

6982 点击 2025-09-26 13:30

一颗小钢球背后的AI质检革命

一颗小钢球背后的AI质检革命

一颗小钢球背后的AI质检革命

AI技术应用于小钢球质检，解决人工检测难题：通过视觉系统拍摄清晰图像、训练AI识别微米级缺陷、自动判决。实现从抽检到全检，速度提升100倍至5万颗/小时，准确率达95%，人力成本大幅降。老师傅转变为AI教练，方法可推广至其他领域。

来自主题: AI资讯

9223 点击 2025-09-24 10:50

Depth Anything再出新作！浙大&港大出品：零样本，优化任意深度图

Depth Anything再出新作！浙大&港大出品：零样本，优化任意深度图

Depth Anything再出新作！浙大&港大出品：零样本，优化任意深度图

浙江大学与港大团队推出「Prior Depth Anything」，把稀疏的深度传感器数据与AI完整深度图融合，一键补洞、降噪、提分辨率，让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练，就能直接提升VGGT等3D模型的深度质量，零样本刷新多项深度补全、超分、修复纪录。

来自主题: AI技术研报

7711 点击 2025-09-24 09:52

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

今天，百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL，并全面开源！该系列包含3B、8B和70B三个尺寸版本，是面向企业级多模态应用场景，进行了深度优化的视觉理解大模型。

来自主题: AI资讯

7726 点击 2025-09-23 10:09

上一页当前第11页,共65页下一页