AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。

来自主题: AI技术研报
7800 点击    2025-11-25 09:30
4K超分Agent修图师来了!一键救活所有模糊照片

4K超分Agent修图师来了!一键救活所有模糊照片

4K超分Agent修图师来了!一键救活所有模糊照片

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率,带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。

来自主题: AI技术研报
7487 点击    2025-11-21 17:03
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?

来自主题: AI技术研报
7570 点击    2025-11-20 09:33
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异,而构建大脑编码模型(brain encoding models)—— 即能够从视觉刺激(如图像)预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据(数千张图像对应的脑活动),成本高昂且难以推广。

来自主题: AI技术研报
9927 点击    2025-11-19 15:21
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用

来自主题: AI技术研报
9588 点击    2025-11-19 15:19
视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。

来自主题: AI技术研报
7403 点击    2025-11-19 09:06
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
8877 点击    2025-11-17 14:32
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报
9041 点击    2025-11-17 09:53
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞

机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热

来自主题: AI技术研报
7465 点击    2025-11-16 11:27
NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

在三维视觉领域,3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”,拼合成一个高质量的三维世界,就像是把一片空白的舞台,用彩色的光斑和粒子逐渐铺满,最后呈现出一幅立体的画卷。

来自主题: AI技术研报
8393 点击    2025-11-15 10:13