一种基于生僻字的标准化处理方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于生僻字的标准化处理方法及系统
申请号:CN202510025748
申请日期:2025-01-08
公开号:CN119416742B
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了一种基于生僻字的标准化处理方法及系统,涉及字符识别处理技术领域,包括,获取输入文本数据进行预处理并统一文本数据格式,建立标准化字典表进行疑似生僻字标记;基于疑似生僻字标记提取多模态文字特征综合识别生僻字,转化已识别的生僻字,并将未识别的生僻字形成列表输出;展示生僻字识别结果并将识别结果进行存储。本发明通过获取用户输入文本数据进行预处理并标记疑似生僻字,降低生僻字识别处理量,提高识别效率,同时通过提取生僻字多模态特征向量进行生僻字综合识别,大幅提高生僻字识别准确性和灵活性,实现了生僻字的精准识别和提取。
技术关键词
字符 上下文特征 文字特征 拼音 文本 字典表 标记 二叉树结构 多模态 数据格式 生成工具 形态 特征提取模型 词向量模型 列表 常用汉字 分词算法