AI资讯新闻榜单内容搜索-CV

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CV
CVPR 2026 | 1000万段驾驶视频,教会模型如何估计相机位姿

CVPR 2026 | 1000万段驾驶视频,教会模型如何估计相机位姿

CVPR 2026 | 1000万段驾驶视频,教会模型如何估计相机位姿

不用百万级 3D 标注,模型也能从普通驾驶视频中学会「自己是怎么动的」。Wayve 的 LA-Pose 试图把未标注视频里的运动信号,转化为自动驾驶系统所需的相机位姿估计能力。

来自主题: AI技术研报
7031 点击    2026-05-27 16:10
CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

CVPR 2026 | 突破短视,理解变化!HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动(Motion)为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入,HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。

来自主题: AI技术研报
8211 点击    2026-05-23 09:55
CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

近年来,3D Gaussian Splatting(3DGS)在三维视觉和图形学中展现出很强的表示与渲染能力。相比传统体素或神经辐射场,它用一组可优化的各向异性高斯来表示三维场景,既能保留连续空间结构,又能实现高速渲染。

来自主题: AI技术研报
5688 点击    2026-05-21 16:09
CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。因此,研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报
5810 点击    2026-05-18 15:30
信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

在联邦学习中,如何同时兼顾模型性能、数据隐私和通信开销,是一个亟需解决的挑战。

来自主题: AI技术研报
10058 点击    2026-05-18 15:29
领先硅谷巨头押注人类数据,融资数亿的深度机智全速冲向具身AGI

领先硅谷巨头押注人类数据,融资数亿的深度机智全速冲向具身AGI

领先硅谷巨头押注人类数据,融资数亿的深度机智全速冲向具身AGI

独家获悉,深度机智成立一周年完成多轮融资,累计融资总额数亿元。资方包括中关村资本、普华资本、东方富海、蓝湖资本、晶科能源控股旗下CVC基金、诚通科创基金、云岫资本、未来光锥前沿科技基金、北京熙诚致远等,同时获得中科大校友基金支持。

来自主题: AI资讯
8523 点击    2026-05-16 13:45
CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

家用电器是家庭服务机器人最难啃的一类任务对象。与桌面物体操作相比,家电操作不仅涉及按钮、旋钮、门体等多种异构部件,还受到模式切换、状态约束和程序逻辑的共同支配。真正完成一次家电任务,机器人往往既要「看得见」,也要「读得懂」,还要「按说明书做对」。

来自主题: AI技术研报
6018 点击    2026-05-13 15:00
CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

当多模态大语言模型(MLLMs)在面对科学、技术、工程和数学(STEM)领域的视觉推理题时频频「翻车」,一个根本性的问题摆在了所有研究者面前:大模型做不出理科题,究竟是因为「脑子笨」(推理能力受限),还是因为「眼神差」(视觉感知缺陷)?

来自主题: AI技术研报
6844 点击    2026-05-11 16:08
CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报
10386 点击    2026-05-06 09:07