AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。

来自主题: AI技术研报
8546 点击    2025-12-29 09:05
最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型(MLLMs)已成为AI视觉理解的核心引擎,但其在真实世界视觉退化(模糊、噪声、遮挡等)下的性能崩溃,始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报
8054 点击    2025-12-25 09:44
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了!首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果?翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比,模型离完全真正可用总是差一段距离。

来自主题: AI技术研报
7429 点击    2025-12-22 17:07
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报
8441 点击    2025-12-21 12:39
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。

来自主题: AI技术研报
9103 点击    2025-12-19 10:23
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。

来自主题: AI技术研报
6735 点击    2025-12-19 09:40
刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

刷榜自动驾驶语义场景补全!北大新作:高维度、高密度 | AAAI'26

北京大学团队提出了一种新的视觉语义场景补全方法HD²-SSC,用于从多视角图像重建三维语义场景。该方法通过高维度语义解耦和高密度占用优化,解决了现有技术中二维输入与三维输出之间的维度差异,以及人工标注与真实场景密度差异的问题,从而实现更准确的语义场景补全。

来自主题: AI技术研报
5990 点击    2025-12-18 09:14
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

在个性化视觉生成的实际应用中,通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。

来自主题: AI技术研报
5760 点击    2025-12-18 09:12