无监督的普通话粤语翻译方法、装置与计算机可读存储介质
申请号:CN202510123001
申请日期:2025-01-24
公开号:CN119940380A
公开日期:2025-05-06
类型:发明专利
摘要
本申请提供了一种无监督的普通话粤语翻译方法、装置与计算机可读存储介质。该方法包括:获取普通话词表和粤语词表,并根据普通话词表构建普通话词嵌入矩阵,并根据粤语词表构建粤语词嵌入矩阵;分别确定普通话词嵌入矩阵与粤语词嵌入矩阵对应的相似度矩阵,得到普通话相似度矩阵和粤语相似度矩阵,并根据普通话相似度矩阵和粤语相似度矩阵将两种语言映射至同一向量空间,得到普通话转换矩阵和粤语转换矩阵;构建初始翻译模型,并采用训练文本对初始翻译模型进行训练处理,得到普通话粤语翻译模型,获取待翻译文本,采用普通话粤语翻译模型对待翻译文本进行翻译处理。解决了现有技术的粤语翻译模型采用大语言模型导致部署成本昂贵的问题。
技术关键词
翻译模型
文本
矩阵
解码器
翻译方法
编码器
可读存储介质
无监督
计算机
翻译装置
大语言模型
程序
处理单元
存储器
处理器
电子设备
关系
噪声
参数