摘要
本申请提出一种面向多模态多语言信息的歧视检测方法及装置,其中,方法包括:采用ViT图像编码器和XLM‑R文本编码器分别提取图像和多语言文本特征,并通过交叉注意力机制实现模态间深度交互,生成多模态融合特征,全面捕捉图像与文本之间的细粒度关联;采用LoRA微调技术冻结预训练模型的图像和文本编码器,仅对分类器进行低秩参数优化,显著降低计算资源需求;引入动态记忆机制,通过检索历史样本信息和动态融合当前特征,增强模型对复杂歧视信号的识别能力,并对新输入的数据进行精准预测。本申请突破了现有方法的语言局限性,可在多语言、多文化背景下实现歧视信号的精准检测,填补了多模态歧视检测在多语言环境中的空白。