一种基于复合视觉编码的遥感大模型性能提升方法和装置
申请号:CN202511512511
申请日期:2025-10-22
公开号:CN120997529B
公开日期:2025-12-26
类型:发明专利
摘要
本申请提供了一种基于复合视觉编码的遥感大模型性能提升方法和装置,涉及遥感图像大语言模型技术领域。该方法基于开源的视觉通用语言模型重新改写网络结构,加入用于提取局部细节和捕捉全局语义的复合视觉编码ConvToMe层,ConvToMe层通过ConvNeXt层提取局部细节,结合ToMe ViT层捕捉全局语义,得到性能提升的遥感大模型,通过复合的视觉编码达到同时保留全局语境和局部细节,提升鲁棒性的同时,提升模型精度的效果。
技术关键词
性能提升方法
遥感图像数据
局部细节特征
矩阵
多模态
文本特征向量
筛选系统
视觉特征
语义特征
跨模态
瓶颈结构
性能提升装置
模态特征
编码向量
令牌
坐标
图像块