AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
7069 点击    2025-08-20 11:05
刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯
9440 点击    2025-08-19 08:52
NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。

来自主题: AI技术研报
7459 点击    2025-08-18 17:36
主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK

主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK

主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK

作者测试了智谱GLM-4.5V(开启/关闭推理)、豆包、Kimi、元宝和ChatGPT-5在识别十张奇葩卫生间标识上的表现。评测模拟紧急如厕场景,按识别正确性评分。结果智谱普通模式得分最高(86分),ChatGPT-5和智谱推理模式次之(78分),豆包和元宝70分,Kimi垫底(38分),揭示了各AI视觉能力的差异及局限性。

来自主题: AI产品测评
8737 点击    2025-08-18 10:44
吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

无需人工标注,吞下17亿张图片,Meta用自监督学习炼出「视觉全能王」!NASA已将它送上火星,医疗、卫星、自动驾驶领域集体沸腾。

来自主题: AI资讯
7598 点击    2025-08-15 20:36
对谈 Memories.ai 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds

对谈 Memories.ai 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds

对谈 Memories.ai 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds

过去几年,AI 的巨大突破赋予了机器语言的力量。而下一个前沿,是给予它们关于世界的记忆。当大模型只能分析短暂的视频内容时,一个根本性的鸿沟依然存在:AI 能够处理信息,却无法真正地“记住” 信息。如今的瓶颈已不再是“看见”,而是如何保留、索引并回忆构成我们现实世界的视觉数据流。

来自主题: AI资讯
7496 点击    2025-08-14 12:00
7个月干到500万ARR!谷歌华人造“AI造梗机”拿下500万融资,00后狂欢:3天活变20分钟

7个月干到500万ARR!谷歌华人造“AI造梗机”拿下500万融资,00后狂欢:3天活变20分钟

7个月干到500万ARR!谷歌华人造“AI造梗机”拿下500万融资,00后狂欢:3天活变20分钟

穿着运动鞋的鲨鱼踩着滑板冲浪,头顶卡布奇诺泡沫的芭蕾舞者在水晶球里旋转——这些被称为“脑残视频”(Brainrot Videos)的荒诞内容正在TikTok和Instagram上病毒式传播,年轻用户群体疯狂追捧这些脱离现实逻辑的视觉梗图,单条播放量动辄突破千万。

来自主题: AI资讯
7210 点击    2025-08-13 12:37
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。

来自主题: AI技术研报
7682 点击    2025-08-13 11:21
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了

当同事出差回来扔到群里这么一张图,我们也是猜了半天,但毫无头绪。 直到另一位同事把图扔给智谱的新模型 ——GLM-4.5V,这个谜团才解开。

来自主题: AI资讯
9083 点击    2025-08-12 16:37
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯
8165 点击    2025-08-12 13:04