一种多模态大模型对抗安全检测方法及系统

申请号：CN202511135419

申请日期：2025-08-14

公开号：CN120639526B

公开日期：2025-10-24

类型：发明专利

摘要

本申请涉及人工智能安全的技术领域，公开一种多模态大模型对抗安全检测方法及系统，包括：从图像、文本、音频等原始数据源获取初始多模态数据，利用强化学习模拟攻击者行为生成对抗样本，并通过迁移学习生成跨域对抗样本，提取多模态特征向量；基于特征向量通过注意力机制动态调整模态权重，降低易受攻击模态权重并增强可信模态权重，结合扰动分析识别异常模态间不一致性，输出加权特征向量；通过对比不同模态语义关联性检测异常输入，若发现语义冲突则触发告警并拒绝输入，输出修正后的特征向量；基于语义校验结果动态关闭不可信模态并增强可信模态，输出最终安全检测结果。本申请能够提升多模态大模型在复杂攻击环境下的安全性。

技术关键词

样本语义多模态特征注意力机制判别规则云端攻击检测规则数据压缩策略权重分配策略校验规则库图像纹理特征校验模块文本模式强化学习算法低延迟输出模块