随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。
在这一背景下,清华大学人工智能学院团队提出了 DAVSP(Deep Aligned Visual Safety Prompt)。该工作以 Oral 形式被 AAAI 2026 录用。
DAVSP 通过引入全新的视觉安全提示与深度对齐策略,在几乎不破坏模型正常能力的前提下,显著提升了大型视觉语言模型对恶意输入的抵御效果,为大型视觉语言模型的安全对齐提供了新的方法。

大型视觉语言模型(LVLMs)虽在多模态任务中表现亮眼,但其安全隐患正迅速显现。攻击者可以将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容。因此,如何增强 LVLMs 对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题。
如何提升 LVLMs 的安全性? 一条常见并且轻量级的思路是对用户请求添加安全提示(safety prompt)以引导模型遵循安全准则。文本领域已有通过在用户文本前加入提示语来提高模型安全性的方法。但在多模态场景下,仅保护文本远远不够,攻击者完全可以绕过文本提示,将威胁藏在图像中。
近期工作如 ESIII、UniGuard 尝试在图像上添加可训练的视觉安全扰动,以提升模型拒绝恶意请求的能力,并与文本安全提示结合取得一定成效。然而,这类视觉安全扰动在真实应用中仍存在两大问题:
上述缺陷背后的原因在该研究中被进一步剖析:

针对以上挑战,清华大学人工智能学院团队在 AAAI 2026 上提出了全新的安全对齐方法 DAVSP(Deep Aligned Visual Safety Prompt)。
该方法的核心思想是从视觉提示范式和训练对齐机制两方面同时创新,以克服以往方法的局限性。在保证模型对正常输入性能几乎不受影响的前提下,大幅提升模型对恶意多模态攻击的抵御能力。下面我们详细介绍 DAVSP 的方法原理和其两项关键创新:视觉安全提示(Visual Safety Prompt)和深度对齐(Deep Alignment)。
DAVSP 整体思路:作者重新审视了将安全提示引入视觉模态的范式,提出视觉安全提示(VSP)来取代传统的图像全局扰动,并设计了深度对齐(DA)的训练策略让模型从内部真正理解何为「不安全」输入。下图概览了 DAVSP 的工作原理。

视觉安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型视觉提示范式。不同于以往直接在整幅图像像素上加扰动的方法,VSP 选择在输入图像周围添加一圈额外的可训练边框,作为安全提示区域。这样做有两大好处:
此外,视觉安全提示作为一种「即插即用」的模块具有实用优势:只需在推理时将图像加上优化得到的视觉安全提示,不需要改动模型结构,也不会带来额外的计算开销或显著延迟。
有了合适的提示范式,还需要有效的训练策略使视觉安全提示发挥作用。DAVSP 的第二项创新深度对齐(Deep Alignment)旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对「有害 / 无害」信息的区分能力。
研究人员注意到,大型视觉语言模型内部往往已经蕴含了一定的对有害意图的「潜在辨别能力」—— 即恶意查询和正常查询在模型中的激活向量存在系统性差异。与其仅看最终输出是否拒绝,不如利用模型内部表征来指导训练,促使模型从内部真正认知到哪些输入是不安全的。具体来说,作者提出了以下步骤:
作者在多个基准上对 DAVSP 进行了全面评估,结果显示该方法在抵御恶意攻击和保持模型实用性两方面均显著优于现有方案。




本研究由清华大学人工智能学院团队完成。通讯作者为清华大学人工智能学院李佳助理教授,主要研究方向包括人工智能和软件工程的交叉赋能、AI for SE、SE for AI 等。第一作者张奕彤将于明年正式入学清华大学人工智能学院攻读博士学位。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0