一种基于改进SAM视觉分割大模型的场景文本分割方法
申请号:CN202510215767
申请日期:2025-02-26
公开号:CN120375380A
公开日期:2025-07-25
类型:发明专利
摘要
本发明涉及场景文本分割领域,具体是一种基于改进SAM视觉分割大模型的场景文本分割方法,本发明以SAM视觉大模型为基础,通过图像内容感知模块提取文本内容感知特征,文本边缘感知模块提取文本边缘感知特征,并通过文本特征融合模块提取计算文本边缘感知特征图在SAM编码器的每次自注意力计算前与需要注意力计算的向量进行相加来提高SAM在文本分割方面的准确率,并能够在保证泛化性的前提下缩短模型的训练时间。
技术关键词
场景文本分割方法
场景文本图像
感知特征
像素
尺寸
注意力
多层感知机
视觉
通道
更新模型参数
编码器
坐标
图像编码
模块
上采样
频率
解码器