AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃

SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃

SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃

开放词汇识别与分类对于全面理解现实世界的 3D 场景至关重要。目前,所有现有方法在训练或推理过程中都依赖于 2D 或文本模态。这凸显出缺乏能够单独处理 3D 数据以进行端到端语义学习的模型,以及训练此类模型所需的数据。与此同时,3DGS 已成为各种视觉任务中 3D 场景表达的重要标准之一。

来自主题: AI技术研报
6245 点击    2025-09-08 10:01
字节发了个机器人全能大模型,带队人李航

字节发了个机器人全能大模型,带队人李航

字节发了个机器人全能大模型,带队人李航

机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。

来自主题: AI技术研报
7603 点击    2025-09-07 11:57
刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了

就在刚刚,斯坦福大学经典 CV 课程 ——《CS231n:深度学习与计算机视觉》(2025 春季)正式上线了!课程网站:https://cs231n.stanford.edu/该系列课程深入探讨了深度学习架构的细节,并重点关注围绕图像分类、定位和检测等视觉识别任务的端到端模型学习,尤其是图像分类领域。

来自主题: AI资讯
10093 点击    2025-09-05 11:40
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

来自主题: AI技术研报
8579 点击    2025-09-03 13:04
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
8978 点击    2025-08-28 12:20
字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

据申妈朋友圈报道,字节Seed大模型视觉基础研究团队负责人冯佳时已正式离职。根据其在字节的职级体系判断,他的级别应在4-1或4-2之间,属于公司最为稀缺的核心研究序列。冯佳时后续去向或是AI创业。

来自主题: AI资讯
9408 点击    2025-08-25 23:05
5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

github排名第一,视觉模型与自动化 这两年,RPA+AI(智能自动化流程)经常被提及,在企业/机构数字化转型过程中,自动化和智能化是提升效能的重要方式,而迈向自动化和智能化的第一步则是机器人流程自动化(RPA)。

来自主题: AI资讯
7775 点击    2025-08-25 15:39
Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

医疗科技公司Method AI近日宣布完成2000万美元A轮融资,由私人家族办公室领投,克利夫兰诊所和JobsOhio Growth Capital Fund跟投。该公司致力于通过图像引导手术导航技术改善肿瘤手术效果,解决长期困扰外科领域的视觉局限问题。

来自主题: AI资讯
7862 点击    2025-08-22 17:50
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
6780 点击    2025-08-22 16:20
已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。

来自主题: AI资讯
8160 点击    2025-08-21 14:46