AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。
为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。
在70亿参数(7B)规模上实现SOTA。
实验结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。
针对以上难点,研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。
该方法的主要特点是:它不再孤立地评估每一步决策的好坏,而是将一整句话的翻译过程视为一个整体,即形成一个完整决策序贯,更符合人类对同传的评估过程。
同声传译采样阶段
优化阶段
研究团队在多个公开的英汉互译测试集上进行了实验,并与多种现有同传模型进行对比。实验结果显示:在低延迟水平下,SeqPO-SiMT框架生成的译文质量相较于基线模型有明显提升。
与多个高性能模型的离线翻译结果进行对比,结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。这表明该方法在70亿参数(7B)规模上实现了业界顶尖(SoTA)的性能。
SeqPO-SiMT为解决同声传译中的“质量-延迟”权衡问题提供了一个新的视角,它强调了对决策“序贯”进行整体优化的重要性。该方法对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。
论文链接:https://arxiv.org/pdf/2505.20622
文章来自于微信公众号“量子位”。