一种基于细粒度视觉提示的医学视觉问答推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于细粒度视觉提示的医学视觉问答推理方法
申请号:CN202411384380
申请日期:2024-09-30
公开号:CN119358672A
公开日期:2025-01-24
类型:发明专利
摘要
本发明公开了一种基于细粒度视觉提示医学视觉问答的推理方法。本发明步骤:1、首先根据预定义的关键点数量,生成统一的网格点并叠加到原始图像上得到增广图像;利用图像编码器和提示编码器分别处理原始图像和增广图像,从而得到图像嵌入和提示嵌入,进而获取包含相关器官的全局掩码,将全局掩码分割为细粒度的实例级局部掩码;2、利用分层提取器将实例级局部掩码和原始图像转化为多模态高级语义表示;3、利用答案生成模块生成最终答案,答案生成模块整合图像特征和文本特征,通过这种多模态融合,生成的综合特征随后被用作答案生成模块的输入,从而实现对最佳医学答案的生成。本发明显著提升了答案生成的准确性和相关性。
技术关键词
图像嵌入 推理方法 图像编码器 视觉特征 分层提取器 医学图像空间 关键点 多层次 深度特征提取 深度学习算法 文本编码器 生成答案 网格 模块