摘要
本申请提供一种基于多模态大模型的图像隐私定位识别方法及装置,该方法包括:基于语义token获取初始查询特征,基于初始查询特征、局部视觉token序列和全局视觉token生成条件查询特征;基于融合特征和条件查询特征确定目标查询特征;将目标查询特征输入给多模态大模型得到预测位置和预测类别;若预测类别与隐私对象描述的相似度大于语义相似度阈值,确定待检测图像存在用户关注的隐私对象,对与预测位置匹配的内容进行脱敏;若相似度不大于语义相似度阈值,确定待检测图像存在用户不关注的隐私对象,对与预测位置匹配的内容不进行脱敏。通过本申请方案,能够有效识别图像中隐私信息。