AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

来自主题: AI技术研报
8169 点击    2025-09-03 13:04
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
8550 点击    2025-08-28 12:20
字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

字节大模型团队核心再出走,视觉基础研究负责人冯佳时离职Seed,或投身新一轮AI创业

据申妈朋友圈报道,字节Seed大模型视觉基础研究团队负责人冯佳时已正式离职。根据其在字节的职级体系判断,他的级别应在4-1或4-2之间,属于公司最为稀缺的核心研究序列。冯佳时后续去向或是AI创业。

来自主题: AI资讯
8882 点击    2025-08-25 23:05
5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

5个AI产品经理必须收藏的RPA框架

github排名第一,视觉模型与自动化 这两年,RPA+AI(智能自动化流程)经常被提及,在企业/机构数字化转型过程中,自动化和智能化是提升效能的重要方式,而迈向自动化和智能化的第一步则是机器人流程自动化(RPA)。

来自主题: AI资讯
7229 点击    2025-08-25 15:39
Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

Method AI获2000万美元A轮融资,为外科医生打造“AI透视眼”

医疗科技公司Method AI近日宣布完成2000万美元A轮融资,由私人家族办公室领投,克利夫兰诊所和JobsOhio Growth Capital Fund跟投。该公司致力于通过图像引导手术导航技术改善肿瘤手术效果,解决长期困扰外科领域的视觉局限问题。

来自主题: AI资讯
7529 点击    2025-08-22 17:50
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。

来自主题: AI技术研报
6386 点击    2025-08-22 16:20
已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。

来自主题: AI资讯
7682 点击    2025-08-21 14:46
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
6698 点击    2025-08-20 11:05
刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯
8941 点击    2025-08-19 08:52
NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。

来自主题: AI技术研报
6979 点击    2025-08-18 17:36