摘要
本申请涉及计算机视觉及医学影像处理技术领域,公开了一种基于多模态大语言模型的消化内镜报告生成方法及装置。具体公开了:对于多幅上消化道内窥镜检查图像,通过视觉编码器提取用于第一图像特征进行解剖部位识别;利用自注意力机制从第一图像特征中提取第二图像特征进行背景胃粘膜分类;通过大语言模型生成关于消化道疾病的描述,在描述的指导下,从第一图像特中提取第三图像特征进行消化道疾病分类;将构建的关于报告生成的文本指令和第三图像特征结合后输入多模态解码器,生成消化内镜报告。本申请能够同时处理多个上消化道内窥镜检查图像分析任务,且能够高效率、高准确率地生成不依赖固定模板且拥有丰富的上下文内容的消化内镜报告。