AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。

来自主题: AI技术研报
7085 点击    2025-05-26 09:59
港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

而马毅是那类觉得不够的人,他于无声处开始提问:智能的本质是什么?自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算与数据科学学院院长。他和团队提出的压缩感知技术,到现在还在影响计算机视觉中模式识别领域的发展。

来自主题: AI技术研报
9005 点击    2025-05-25 12:43
巧妙!一个传统技术让国产视觉基础模型直接上大分

巧妙!一个传统技术让国产视觉基础模型直接上大分

巧妙!一个传统技术让国产视觉基础模型直接上大分

咱就是说啊,视觉基础模型这块儿,国产AI真就是上了个大分——Glint-MVT,来自格灵深瞳的最新成果。Glint-MVT,来自格灵深瞳的最新成果先来看下成绩——线性探测(LinearProbing):

来自主题: AI技术研报
7399 点击    2025-05-23 15:18
CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

来自香港中文大学(深圳)等单位的学者们提出了一种名为 DriveGEN 的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型,即可实现训练图像数据的可控扩充,从而以较低的计算资源成本提升三维检测模型的鲁棒性。

来自主题: AI技术研报
7027 点击    2025-05-23 14:09
RSS 2025|物理驱动的世界模型PIN-WM:直接从视觉观测估计物理属性,可用于操作策略学习

RSS 2025|物理驱动的世界模型PIN-WM:直接从视觉观测估计物理属性,可用于操作策略学习

RSS 2025|物理驱动的世界模型PIN-WM:直接从视觉观测估计物理属性,可用于操作策略学习

在机器人操作中,物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测,并提升机器人在操作技能学习中的表现。

来自主题: AI技术研报
7049 点击    2025-05-23 12:09
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI

苹果近期开源本地端侧视觉语言模型FastVLM,支持iPhone等设备本地运行,具备快速响应、低延迟和多设备适配特性。该模型依托自研框架MLX和视觉架构FastViT-HD,通过算法优化实现高效推理,或为未来智能眼镜等新硬件铺路,体现苹果将AI深度嵌入系统底层的战略布局。

来自主题: AI资讯
6633 点击    2025-05-16 15:48