一种内镜图像的描述报告生成方法、装置及介质

申请号：CN202411711351

申请日期：2024-11-27

公开号：CN119724464A

公开日期：2025-03-28

类型：发明专利

摘要

本申请涉及人工智能领域，尤其是涉及一种内镜图像的描述报告生成方法、装置及介质。通过构建一个包括视觉编码器、大型语言模型和跨模态对齐模块的多模态内镜模型，将图像分析与文本生成相结合，对内镜图像实现从图像识别到文本描述的一体化处理，最终生成描述报告，从而实现了从图像到文本的高效转换，提高了内镜图像分析的速度和自动化程度，减少了医生在报告撰写上的时间消耗。所述多模态内镜模型通过将复杂的医学知识与图像分析结果有效结合，可以更准确地生成具有临床价值的诊断意见，即生成更准确的描述报告。所述多模态内镜模型使用了多任务的数据集进行训练，并可以集成不同任务的能力，在同一张内镜图片上实现多任务结果的预测。

技术关键词

报告生成方法多模态对齐模块语义分割模型文本数据交叉注意力机制训练集上消化道内镜检查图像分析大语言模型报告生成装置论文肿瘤图片跨模态图谱多任务