基于视觉-文本融合的水下图像增强方法及系统

申请号：CN202511127097

申请日期：2025-08-13

公开号：CN120634934B

公开日期：2025-10-17

类型：发明专利

摘要

本申请属于水下图像增强技术领域，涉及一种基于视觉‑文本融合的水下图像增强方法及系统，方法的步骤为：构建基于视觉‑文本融合的增强网络；增强网络包括用以对图像进行处理生成增强图像的生成器和用以判定图像是真实图像还是生成器生成图像的判别器，生成器包括高速图像生成扩散模型和基于对比语言‑图像预训练模型的文本编码器，高速图像生成扩散模型中的编码器、U‑net模块、解码器依次顺序连接，文本编码器生成用于U‑net模块调节的文本嵌入；将待增强水下图像输入至增强网络得到水下增强图像。本申请利用高速图像生成扩散模型的推理能力和强大先验知识实现视觉‑文本融合，从而达到高效处理和零样本泛化，稳定性强，确保视觉质量。

技术关键词

水下图像增强方法颜色直方图水下图像增强系统预训练模型文本编码器视觉采样模块约束生成器离散小波变换水下图像增强技术解码器通道网络积层图像重建图像增强模块