摘要
本发明属于针对中医古籍的自然语言处理技术领域,具体涉及一种中医古籍异体字字典构建及文本对齐方法、系统和介质。本发明结合异体字的识别和异体字字典构建,实现了中医古籍的文本对齐方法。具体而言,本发明采用深度学习和自然语言处理技术,自动提取异体字特征,显著提高覆盖范围和识别准确性;通过动态规划、语义相似度计算和知识图谱融合,综合考虑多模态特征,显著提升对齐精度。同时,模型能够动态适应新文本和异体字,具有更强的扩展性和适应性;且利用知识图谱优化对齐结果,提高了文本处理的准确性和效率。最终生成的结果是对齐后的文本序列,其中异体字被正确识别并映射到标准字。本发明在中医古籍的数字化工作中具有很好的应用前景。