AI翻译的「最后一公里」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI翻译的「最后一公里」
6032点击    2025-12-17 14:59

在巴布亚新几内亚的一个原始部落,情感的中心是肝脏而非心脏;在纳米比亚,有一个专门的词形容「光脚踩在热沙上」。这些人类经验的细微差别,正成为AI翻译难以逾越的「最后且最远的一英里」。


在巴布亚新几内亚的丛林深处,阿瓦人(Awa)并不相信心脏是情感的中心。


如果你想对他们表达真诚,你不能说「敞开心扉」,而应该说「敞开你的肝脏」。


而在同一个岛屿的另一端,拉瓦人(Rawa)则坚信,人类的灵魂与情感栖息在胃里。


AI翻译的「最后一公里」


这些细微且致命的文化差异,曾是翻译者数百年来无法逾越的天堑。


但现在,硅谷最前沿的AI正在试图填平这个天堑。


被遗忘的语料荒漠


对于ChatGPT或Gemini这样的通用大模型来说,英语是「富人区」,中文和法语是「中产阶级」,而像阿瓦语这样的语言,则是彻底的「贫民窟」。


在AI的训练集中,英语占据了90%以上的份额。


这种数据的极度不平衡创造了一种「算法霸权」:模型倾向于用英语的逻辑去理解世界。


当你输入一个复杂的中文成语,AI往往会先将其「脑补」成英文语境下的对应概念,再翻译回来,导致原意的流失。


而在那些仅有数千人使用的「低资源语言」中,情况更为糟糕。


互联网上几乎不存在这些语言的文本数据,AI无书可读。


威克理夫圣经翻译会(Wycliffe)手中的《圣经》,往往是这些边缘语言中唯一存在的长文本。


他们要在2033年前实现「让所有语言都有译本」,实现他们愿景中的「基督再临」。


2022年,Meta开源了名为「不让任何语言掉队」的AI模型NLLB-200 (No Language Left Behind)


相关新文章(非上述旧模型):翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言


扎克伯格的本意或许更多是为了让他在非洲和亚洲的用户能更顺畅地刷Instagram,从而提升广告效率,但这个模型意外地成为了语言学家的新宠。


翻译机构迅速采用了这个本为商业互联设计的模型,将其微调用于处理那些最晦涩难懂的古老方言。


但有了这个模型,并不是直接万事大吉了。


AI的幻觉


数据科学家丹尼尔·惠特纳克(Daniel Whitenack)发出警告:你不能把经文直接扔进ChatGPT然后坐等结果。


AI翻译的「最后一公里」


因为当AI遇到它不懂的领域时,它不会沉默,它会撒谎,也就是AI幻觉。


以《圣经》翻译为例,这简直是AI的噩梦。


新约由一种并不规范的古希腊语写成,充满了歧义。


比如主祷文中「赐给我们今日的epiousion饮食」,至今无人确切知晓这个词的含义,学者们只能妥协地译为「日常」。


当AI面对这种模糊性时,它倾向于根据概率「猜」一个最通顺的词,而不是最准确的词,而这可能导致严重的语义偏离。


如今,一个算法权重的微小波动,可能就会在毫秒间改写这个定义。


更荒谬的例子发生在日常翻译中。


有研究发现,当处理极低资源语言时,AI有时会陷入「振荡性幻觉」,开始像念经一样无限重复某个单词;或者产生「分离性幻觉」,即翻译出的句子通顺优美,但内容与原文毫无关系,仿佛是机器自己在编故事。


在商业文档中,这种错误或许只是把「环保的」(Eco-friendly)错译为「经济的」(Econ-friendly),但在文化传承或法律文本中,这种「一本正经的胡说八道」是致命的。


没有身体的翻译官


AI最大的强项和软肋,在于它没有肉身。


它从未感受过饥饿、寒冷或疼痛,因此它无法真正理解那些基于生理体验的隐喻。


在纳米比亚的鲁匡阿里语(Rukwangali)中,有一个词叫「Hanyauku」,特指「脚尖踩在滚烫沙子上走路」的动作。


对于生活在沙漠边缘的人来说,这是一个极具画面感的日常词汇。


但对于生活在服务器机房里的AI来说,这是一串无法解码的乱码。


同样,「攻城锤」(battering-ram)这个词,在许多和平的原始部落语言中根本不存在。


人类译者会创造性地将其意译为「撞击城门的巨大木杆」或「战争机器」,而AI可能会直接卡死,或者生硬地音译一个没人听得懂的新词。


AI翻译的「最后一公里」


这就是为什么「人」依然是翻译闭环中不可或缺的一环。


IllumiNations联盟虽然利用AI将新约的翻译周期从十几年缩短到了两年,但他们强调,AI只是完成了初稿。


原本需要在丛林中耗费数十年学习语言的传教士,现在变成了「高级编辑」。


他们的工作重心从「从零翻译」转变为「纠正机器的文化盲区」。


在巴布亚新几内亚,只有深谙当地文化的人类,才懂得把「接受耶稣进入心脏」改为「进入肝脏」。


这种对「痛点」和「笑点」的精准捕捉,是目前硅谷最昂贵的算力也无法模拟的。


翻译的最后一公里


这不仅是关于《圣经》的故事,更是关于人类沟通终极困境的寓言。


我们在试图构建一种通用的理解工具,但语言本身却是极其私人和部落化的。


每一个「不可翻译」的词汇背后,都是一种独特的生活方式。


苏格兰语里的Tartle(介绍人时突然忘了对方名字的尴尬),日语里的きょういくママ(虎妈,热衷于鸡娃的母亲,意大利语里的abbioccio(饱餐后的困倦与满足),这些词汇构成了人类经验的拼图。


AI正在帮我们以此前难以想象的速度拼凑这幅拼图。


它像一架推土机,推平了语言学习的门槛,让知识的流动不再受限于国界。


但推土机无法完成最后的精调。


2033年的目标或许能够达成,但那将是人机协作的胜利。


在技术的尽头,依然站着一个需要被理解的人。


参考资料:

https://www.economist.com/culture/2025/12/11/the-race-to-translate-the-bible-into-every-language-by-2033


文章来自于“新智元”,作者 “艾伦”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner