一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质
申请号:CN202510225548
申请日期:2025-02-27
公开号:CN120111162A
公开日期:2025-06-06
类型:发明专利
摘要
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质,方法:采用语义分割模型对获取的遥感图像数据集进行语义分割,生成遥感图像中各类地物在不同方位的占比信息;并将其输入大语言模型中,根据具体要求生成文本,构建图像‑文本对;对图像‑文本对全面审查,剔除其中明显错误的图像‑文本对;将审查后的图像‑文本对整理保存,用作遥感图像‑文本对数据集;搭建遥感图像长字幕生成网络,包括:图像编码器、交互式小波变换模块和语言模型;训练交互式小波变换模块;训练遥感图像长字幕生成网络;性能评估;系统、设备及介质用于实现该方法;本发明具有提高数据集质量、增强模型理解与生成能力以及提升字幕生成准确性的优点。
技术关键词
字幕生成方法
文本
图像变换器
遥感图像数据
视觉特征
生成遥感图像
图像编码器
语义分割模型
模块
高维特征向量
大语言模型
生成字幕
地物类别
网络
可读存储介质