一种基于语言感知的场景文字识别预训练方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于语言感知的场景文字识别预训练方法及系统
申请号:CN202510335613
申请日期:2025-03-20
公开号:CN120544176A
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及场景文字识别技术领域,提供了一种基于语言感知的场景文字识别预训练方法及系统。所述场景文字识别方法,包括:基于获取的输入图像,得到引导视图;分别对输入图像和引导视图进行分割,并分别排列后输入全连接层,得到输入图像嵌入表示和引导视图嵌入表示;对输入图像嵌入表示进行随机掩码,并将未掩码的图像补丁输入第一编码器,得到第一可见标记特征和第一CLS特征;将引导视图嵌入表示输入第二编码器,得到第二可见标记特征和第二CLS特征;基于第一可见标记特征,在对应掩码位置插入可学习的掩码标记,将插入掩码后的第一可见标记特征、第一CLS特征、第二可见标记特征和第二CLS特征输入解码器,得到预测结果。
技术关键词
标记特征 预训练方法 图像嵌入 补丁 输入解码器 场景文字识别方法 可读存储介质 计算机程序产品 预训练系统 编码器模块 图像处理模块 处理器 图像分割