一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置
申请号:CN202411808250
申请日期:2024-12-10
公开号:CN119763089B
公开日期:2025-11-18
类型:发明专利
摘要
一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置,其方法包括,通过自动化遍历脚本自动采集移动应用无障碍字幕数据集,构建训练和测试数据集,并在训练测试过程中记录错误案例;进行图像预处理优化;基于优化后的模型在训练测试中产生的错误案例,采取去除下划线及应用基于像素列连续性的切分算法策略;根据测试结果中出现的未识别到字符情况,修改处理流程,仅调用文字内容识别模块,并基于YOLO训练一个移动应用无障碍字幕文本位置目标检测模型基于YOLO再次训练一个字幕消息框位置检测模型,通过先定位消息框位置,再定位文本位置的二次识别方法。本发明在背景干扰、字幕过长及多行字幕情况下,展现出较高的鲁棒性和准确性。
技术关键词
字幕识别方法 识别模块 定位文本位置 二次识别方法 消息 图片 色块 图像 检测模型训练 位置检测模块 数据 脚本 像素 连续性 黑色 格式 识别装置 处理器
系统为您推荐了相关专利信息
病害特征 局部图像特征 图像识别方法 风格 生物
蓝牙发射器 蓝牙芯片 数据接口 语音识别模块 电路板
场景控制系统 车载摄像头 汽车座舱 指标 模式
运维服务系统 漏洞 预警模块 识别模块 网络性能信息
烹饪机器 操控装置 散热模块 设备底座 控制面板