基于视觉-语言多模态对比学习的超声图像预训练方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于视觉-语言多模态对比学习的超声图像预训练方法
申请号:
CN202410932383
申请日期:
2024-07-12
公开号:
CN118821900B
公开日期:
2025-02-18
类型:
发明专利
摘要
本发明公开一种基于视觉‑语言多模态对比学习的超声图像预训练方法,通过单模态局部对比学习与多模态局部对比学习实现特征对齐,并创造性地提出自监督预训练方法,该方法使用医学超声图像数据与诊断报告文本数据学习输入图像和报告文本的单模态和多模态特征表示,利用单模态对比损失与多模态对比损失对齐图像与文本特征。本发明考虑到超声图像与诊断报告的特点,本发明采用局部对比学习的方式来细粒度对齐图像与文本特征。本发明以掩码语言建模和图像文本匹配作为预训练目标进行预训练。
技术关键词
预训练方法
文本编码器
图像编码器
局部图像特征
多模态
图像解码器
报告
医学超声图像
融合视觉特征
交叉注意力机制
度函数
图像块
生成答案
模态特征