摘要
本公开涉及数据处理技术领域,提供了一种目标检测方法、模型训练方法、装置、电子设备及介质。目标检测方法包括:获取待识别图像和查询文本,其中,查询文本用于查询待识别图像中与查询文本对应的目标对象;对待识别图像进行图像识别,得到图像描述特征和区域检测视觉特征;对图像描述特征和区域检测视觉特征进行区域多模态融合处理,得到区域多模态融合特征;对基于查询文本得到的文本特征和区域多模态融合特征进行特征融合处理,得到查询文本对应的文本区域融合特征;基于文本特征和文本区域融合特征得到目标检测结果,以此提升了文本语义与图像区域特征的融合度,提升了复杂场景下目标检测的准确性和鲁棒性。