端到端的影像文件处理方法、模型构建方法及装置

申请号：CN202511270622

申请日期：2025-09-08

公开号：CN120751140A

公开日期：2025-10-03

类型：发明专利

摘要

本公开涉及一种端到端的影像文件处理方法、模型构建方法及装置，包括：获取待处理的影像文件；将上述影像文件输入到预先构建好的影像报告生成模型进行图像语义编码处理、基于时空注意力机制生成上下文向量和文本序列预测解码处理，输出得到影像报告文本；其中，基于时空注意力机制生成上下文向量，包括：根据图像语义编码处理的结果和文本序列预测解码处理的结果，基于注意力机制，针对不同图像区域的重要程度与每个时间步的文本预测之间的对应关系进行动态映射学习，得到每个时间步针对全局图像的上下文向量；上下文向量是针对图像语义编码处理的结果进行注意力权重加权后得到的。输出的报告具有较高的准确度、处理效率高且模型的泛化性能好。

技术关键词

时空注意力机制文本报告图像序列医学影像文件解码模型语义特征模型构建方法编码区域卷积神经网络神经网络模型训练网络结构深度卷积神经网络长短期记忆网络