字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

8496点击 2025-06-19 11:31

AI字幕总是慢半拍，质量和延迟难以平衡是业界老问题了。

为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

在70亿参数（7B）规模上实现SOTA。

实验结果显示，SeqPO-SiMT的翻译质量不仅优于监督微调（SFT）的离线模型及LLaMA-3-8B，其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。

方法：SeqPO-SiMT序贯策略优化

针对以上难点，研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题，综合评估整个翻译流程的翻译质量和延迟，并对整个决策序贯进行端到端的优化。

该方法的主要特点是：它不再孤立地评估每一步决策的好坏，而是将一整句话的翻译过程视为一个整体，即形成一个完整决策序贯，更符合人类对同传的评估过程。

同声传译采样阶段

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

优化阶段

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

结果与分析：翻译质量媲美Qwen-2.5-7B离线翻译水平

研究团队在多个公开的英汉互译测试集上进行了实验，并与多种现有同传模型进行对比。实验结果显示：在低延迟水平下，SeqPO-SiMT框架生成的译文质量相较于基线模型有明显提升。

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

与多个高性能模型的离线翻译结果进行对比，结果显示，SeqPO-SiMT的翻译质量不仅优于监督微调（SFT）的离线模型及LLaMA-3-8B，其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。这表明该方法在70亿参数（7B）规模上实现了业界顶尖（SoTA）的性能。

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

SeqPO-SiMT为解决同声传译中的“质量-延迟”权衡问题提供了一个新的视角，它强调了对决策“序贯”进行整体优化的重要性。该方法对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义，并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。

论文链接：https://arxiv.org/pdf/2505.20622

文章来自于微信公众号“量子位”。

关键词: AI , 模型训练 , SeqPO-SiMT , AI同传

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner