一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置
申请号:CN202411808250
申请日期:2024-12-10
公开号:CN119763089B
公开日期:2025-11-18
类型:发明专利
摘要
一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置,其方法包括,通过自动化遍历脚本自动采集移动应用无障碍字幕数据集,构建训练和测试数据集,并在训练测试过程中记录错误案例;进行图像预处理优化;基于优化后的模型在训练测试中产生的错误案例,采取去除下划线及应用基于像素列连续性的切分算法策略;根据测试结果中出现的未识别到字符情况,修改处理流程,仅调用文字内容识别模块,并基于YOLO训练一个移动应用无障碍字幕文本位置目标检测模型基于YOLO再次训练一个字幕消息框位置检测模型,通过先定位消息框位置,再定位文本位置的二次识别方法。本发明在背景干扰、字幕过长及多行字幕情况下,展现出较高的鲁棒性和准确性。
技术关键词
字幕识别方法
识别模块
定位文本位置
二次识别方法
消息
图片
色块
图像
检测模型训练
位置检测模块
数据
脚本
像素
连续性
黑色
格式
识别装置
处理器