摘要
本申请公开了一种任务处理方法及相关装置,涉及数据处理技术领域,方法包括:获取目标任务的任务数据,目标任务为基于图像的文本生成任务,任务数据包括目标图像;对目标图像进行实例分割,得到目标图像中每个实例的边界框;获取目标图像的全局视觉特征,根据目标图像和获得的边界框,获取目标图像中每个实例的实例特征;根据全局视觉特征以及各实例的实例特征,生成目标文本。本申请公开的任务处理方法,保留了图像中实例的完整性,一方面获取图像的全局视觉特征,另一方面获取图像中各实例的实例特征,如此可获得多粒度视觉表示,根据多粒度视觉表示能够生成较为准确的目标文本。