摘要
本公开涉及一种端到端的影像文件处理方法、模型构建方法及装置,包括:获取待处理的影像文件;将上述影像文件输入到预先构建好的影像报告生成模型进行图像语义编码处理、基于时空注意力机制生成上下文向量和文本序列预测解码处理,输出得到影像报告文本;其中,基于时空注意力机制生成上下文向量,包括:根据图像语义编码处理的结果和文本序列预测解码处理的结果,基于注意力机制,针对不同图像区域的重要程度与每个时间步的文本预测之间的对应关系进行动态映射学习,得到每个时间步针对全局图像的上下文向量;上下文向量是针对图像语义编码处理的结果进行注意力权重加权后得到的。输出的报告具有较高的准确度、处理效率高且模型的泛化性能好。