AI资讯新闻榜单内容搜索-CV

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CV
刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

就在刚刚,斯坦福大学经典 CV 课程 ——《CS231n:深度学习与计算机视觉》(2025 春季)正式上线了!课程网站:https://cs231n.stanford.edu/该系列课程深入探讨了深度学习架构的细节,并重点关注围绕图像分类、定位和检测等视觉识别任务的端到端模型学习,尤其是图像分类领域。

来自主题: AI资讯
8292 点击    2025-09-05 11:40
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

本文主要介绍来自该团队的最新论文:TRKT,该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。

来自主题: AI技术研报
6456 点击    2025-09-05 11:18
ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被 ICCV 2025 录用为 Highlight。

来自主题: AI技术研报
6207 点击    2025-08-29 11:42
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
5437 点击    2025-08-22 16:20
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力

来自主题: AI技术研报
7117 点击    2025-08-22 10:35
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
5994 点击    2025-08-20 11:05
AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

就在刚刚,NUS研究者呼吁:NeurIPS、ICML、CVPR三大顶会,正在反噬整个AI学术圈!平均每个研究者每年被逼狂发4.5篇论文,已经身心俱疲。总之,顶会模型已经濒临崩溃,是时候踩刹车了!

来自主题: AI技术研报
5486 点击    2025-08-17 13:03
吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

无需人工标注,吞下17亿张图片,Meta用自监督学习炼出「视觉全能王」!NASA已将它送上火星,医疗、卫星、自动驾驶领域集体沸腾。

来自主题: AI资讯
6298 点击    2025-08-15 20:36
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型

ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型

ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型

在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。

来自主题: AI技术研报
6441 点击    2025-08-15 11:10
ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力

来自主题: AI技术研报
6514 点击    2025-08-12 16:10