一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置

申请号：CN202411808250

申请日期：2024-12-10

公开号：CN119763089B

公开日期：2025-11-18

类型：发明专利

摘要

一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置，其方法包括，通过自动化遍历脚本自动采集移动应用无障碍字幕数据集，构建训练和测试数据集，并在训练测试过程中记录错误案例；进行图像预处理优化；基于优化后的模型在训练测试中产生的错误案例，采取去除下划线及应用基于像素列连续性的切分算法策略；根据测试结果中出现的未识别到字符情况，修改处理流程，仅调用文字内容识别模块，并基于YOLO训练一个移动应用无障碍字幕文本位置目标检测模型基于YOLO再次训练一个字幕消息框位置检测模型，通过先定位消息框位置，再定位文本位置的二次识别方法。本发明在背景干扰、字幕过长及多行字幕情况下，展现出较高的鲁棒性和准确性。

技术关键词

字幕识别方法识别模块定位文本位置二次识别方法消息图片色块图像检测模型训练位置检测模块数据脚本像素连续性黑色格式识别装置处理器

系统为您推荐了相关专利信息

一种水生生物的风格迁移的图像识别方法及系统

病害特征局部图像特征图像识别方法风格生物

一种蓝牙发射器

蓝牙发射器蓝牙芯片数据接口语音识别模块电路板

一种基于车载摄像头的汽车座舱场景控制系统

场景控制系统车载摄像头汽车座舱指标模式

一种计算机安全运维服务系统

运维服务系统漏洞预警模块识别模块网络性能信息

独立操控装置与烹饪机器的控制方法和装置