基于编码转写增强词嵌入迁移的老-中神经机器翻译方法
申请号:CN202410756921
申请日期:2024-06-13
公开号:CN118333067B
公开日期:2024-08-16
类型:发明专利
摘要
本发明涉及基于编码转写增强词嵌入迁移的老‑中神经机器翻译方法,属于自然语言处理技术领域。为了解决现有方法运用于泰语到老挝语的迁移学习时难以构建准确词表映射问题,针对泰语和老挝语的书写体系不一致,本发明提出了一种基于编码转写增强词嵌入迁移的老‑中神经机器翻译方法,包括进行文本数据预处理、基于泰老发音相似性的统一罗马化表征、构建基于编码转写增强词嵌入迁移的老‑中神经机器翻译模型以及进行老‑中神经机器翻译;本发明对输入的老挝语句子进行翻译,有效提升了老挝语到中文的翻译效果。
技术关键词
神经机器翻译方法
机器翻译模型
字符
双语词典
发音
分词
平行语料训练
双语平行语料
编码
文本
自然语言
服务器
多用户
频率
训练集
互联网
数据
格式